apache-spark 503

  1. Apache Spark vs. Apache Storm
  2. Quelle est la différence entre Apache Spark et Apache Flink?
  3. Tâche non sérialisable: java.io.NotSerializableException lors de l'appel de la fonction en dehors de la fermeture uniquement sur les classes et non sur les objets
  4. Quelle est la différence entre cache et persist?
  5. Différence entre DataFrame (dans Spark 2.0 ie DataSet [Row]) et RDD dans Spark
  6. Spark java.lang.OutOfMemoryError: espace de tas Java
  7. Quelle est la différence entre map et flatMap et un bon cas d'utilisation pour chacun?
  8. Comment lire plusieurs fichiers texte dans un seul RDD?
  9. Apache Spark: Le nombre de cœurs par rapport au nombre d'exécuteurs
  10. Quels sont les travailleurs, les exécuteurs, les noyaux dans le cluster Spark Standalone?
  11. Performances Spark pour Scala vs Python
  12. (Pourquoi) avons-nous besoin d'appeler le cache ou persister sur un RDD
  13. Spark - repartition () vs coalesce ()
  14. Comment changer les types de colonnes dans DataFrame de Spark SQL?
  15. Comment stocker des objets personnalisés dans Dataset?
  16. Comment désactiver la journalisation INFO dans Spark?
  17. Comment arrêter l'affichage des messages INFO sur la console d'allumage?
  18. Comment imprimer le contenu de RDD?
  19. Ajouter des jars à un travail Spark - spark-submit
  20. Comment convertir un objet rdd en données dans une étincelle
  21. Comment définir le partitionnement de DataFrame?
  22. Comment configurer la mémoire d'Apache Spark Executor
  23. Apache Spark: carte vs mapPartitions?


  24. Comment afficher le contenu d'une colonne complète dans une base de données Spark?
  25. Importation de pyspark dans un shell python
  26. Comment empêcher java.lang.OutOfMemoryError: espace PermGen à la compilation de Scala?
  27. Comment sélectionner la première rangée de chaque groupe?
  28. Comment configurer Spark sur Windows?
  29. Spark - charger le fichier CSV en tant que DataFrame?
  30. Comment charger un fichier local dans sc.textFile, au lieu de HDFS
  31. Comment les étapes sont-elles divisées en tâches dans Spark?
  32. Erreurs lors de l'utilisation du stockage OFF_HEAP avec Spark 1.4.0 et Tachyon 0.6.4
  33. Comment remplacer le répertoire de sortie dans une étincelle
  34. Comment trier par colonne dans l'ordre décroissant dans Spark SQL?
  35. Comment ajouter une nouvelle colonne à un Spark DataFrame (en utilisant PySpark)?
  36. Comment changer les noms des colonnes de dataframe dans pyspark?
  37. comment faire saveAsTextFile PAS divisé sortie en plusieurs fichiers?
  38. Ecrire un seul fichier CSV en utilisant spark-csv
  39. Comment passer le paramètre -D ou la variable d'environnement au travail Spark?
  40. Que signifie "Stage Skipped" dans l'interface utilisateur Web Apache Spark?
  41. Spark - Erreur "Une URL principale doit être définie dans votre configuration" lors de la soumission d'une application
  42. Renommer les noms de colonnes d'un DataFrame dans Spark Scala
  43. Quel type de cluster dois-je choisir pour Spark?
  44. Comment fonctionne HashPartitioner?
  45. Ecrire sur plusieurs sorties par clé Spark - un travail Spark
  46. Charger le fichier CSV avec Spark
  47. Pourquoi les jobs Spark échouent-ils avec org.apache.spark.shuffle.MetadataFetchFailedException: Manquant un emplacement de sortie pour shuffle 0 en mode spéculation?
  48. Quelle est la relation entre les travailleurs, les instances de travailleurs et les exécuteurs?
  49. Que signifient les chiffres sur la barre de progression dans spark-shell?
  50. Comment ajouter une colonne constante dans un DataFrame Spark?