apache-spark 356

  1. Apache Spark vs. Apache Storm
  2. Quelle est la différence entre Apache Spark et Apache Flink?
  3. Tâche non sérialisable: java.io.NotSerializableException lors de l'appel de la fonction en dehors de la fermeture uniquement sur les classes et non sur les objets
  4. Quelle est la différence entre cache et persist?
  5. Différence entre DataFrame (dans Spark 2.0 ie DataSet [Row]) et RDD dans Spark
  6. Spark java.lang.OutOfMemoryError: espace de tas Java
  7. Quelle est la différence entre map et flatMap et un bon cas d'utilisation pour chacun?
  8. Comment lire plusieurs fichiers texte dans un seul RDD?
  9. Apache Spark: Le nombre de cœurs par rapport au nombre d'exécuteurs
  10. Quels sont les travailleurs, les exécuteurs, les noyaux dans le cluster Spark Standalone?
  11. Performances Spark pour Scala vs Python
  12. (Pourquoi) avons-nous besoin d'appeler le cache ou persister sur un RDD
  13. Spark - repartition () vs coalesce ()
  14. Comment changer les types de colonnes dans DataFrame de Spark SQL?
  15. Comment stocker des objets personnalisés dans Dataset?
  16. Comment désactiver la journalisation INFO dans Spark?
  17. Comment arrêter l'affichage des messages INFO sur la console d'allumage?
  18. Comment imprimer le contenu de RDD?
  19. Ajouter des jars à un travail Spark - spark-submit
  20. Comment convertir un objet rdd en données dans une étincelle
  21. Comment définir le partitionnement de DataFrame?
  22. Comment configurer la mémoire d'Apache Spark Executor
  23. Apache Spark: carte vs mapPartitions?
  24. Comment empêcher java.lang.OutOfMemoryError: espace PermGen à la compilation de Scala?
  25. Importation de pyspark dans un shell python
  26. Erreurs lors de l'utilisation du stockage OFF_HEAP avec Spark 1.4.0 et Tachyon 0.6.4
  27. Comment charger un fichier local dans sc.textFile, au lieu de HDFS
  28. comment faire saveAsTextFile PAS divisé sortie en plusieurs fichiers?
  29. Comment configurer Spark sur Windows?
  30. Comment remplacer le répertoire de sortie dans une étincelle
  31. Comment afficher le contenu d'une colonne complète dans une base de données Spark?
  32. Comment changer les noms des colonnes de dataframe dans pyspark?
  33. Quelle est la différence entre Apache Mahout et MLlib d'Apache Spark?
  34. Pourquoi les jobs Spark échouent-ils avec org.apache.spark.shuffle.MetadataFetchFailedException: Manquant un emplacement de sortie pour shuffle 0 en mode spéculation?
  35. Comment trier par colonne dans l'ordre décroissant dans Spark SQL?
  36. Que signifie "Stage Skipped" dans l'interface utilisateur Web Apache Spark?
  37. Quel type de cluster dois-je choisir pour Spark?
  38. Spark: quelle est la meilleure stratégie pour joindre un RDD à 2 clés individuelles avec RDD à une seule clé?
  39. Comment puis-je convertir le fichier csv en rdd
  40. Comment passer le paramètre -D ou la variable d'environnement au travail Spark?
  41. Comment lier PyCharm avec PySpark?
  42. Spark - charger le fichier CSV en tant que DataFrame?
  43. Comment ajouter une nouvelle colonne à un Spark DataFrame (en utilisant PySpark)?
  44. Comment DAG fonctionne sous les couvertures dans RDD?
  45. Ajouter une colonne à l'image de données dans Apache Spark 1.3
  46. Extraire les valeurs de colonne de Dataframe en tant que liste dans Apache Spark
  47. Comment les étapes sont-elles divisées en tâches dans Spark?
  48. Analyse Hadoop rapide (Cloudera Impala vs Spark / Shark vs Apache Drill)
  49. Spark Driver dans l'étincelle Apache
  50. Quelle est la relation entre les travailleurs, les instances de travailleurs et les exécuteurs?