apache-spark 503

  1. Apache Spark vs Apache Storm
  2. Was ist der Unterschied zwischen Apache Spark und Apache Flink?
  3. Task nicht serialisierbar: java.io.NotSerializableException beim Aufruf von Funktion außerhalb von Closure nur für Klassen nicht Objekte
  4. Was ist der Unterschied zwischen Cache und bestehen?
  5. Unterschied zwischen DataFrame (in Spark 2.0 dh DataSet [Zeile]) und RDD in Spark
  6. Spark java.lang.OutOfMemoryError: Java-Heapspeicher
  7. Was ist der Unterschied zwischen map und flatMap und ein guter Anwendungsfall für jeden?


  8. Wie liest man mehrere Textdateien in eine einzige RDD?
  9. Apache Spark: Die Anzahl der Cores im Vergleich zur Anzahl der Executoren
  10. Was sind Workers, Executors, Cores im Spark Standalone-Cluster?
  11. Spark-Performance für Scala vs Python
  12. (Warum) müssen wir den Cache aufrufen oder auf einer RDD persistieren
  13. Spark - repartition () vs coalesce ()
  14. Wie ändert man die Spaltentypen in DatFrame von Spark SQL?
  15. Wie speichern Sie benutzerdefinierte Objekte in Dataset?
  16. Wie deaktiviere ich die INFO-Anmeldung in Spark?
  17. Wie stoppe ich die Anzeige von INFO-Nachrichten auf der Spark-Konsole?
  18. Wie drucke ich den Inhalt von RDD?
  19. Hinzufügen von Gläsern zu einem Spark-Job - Spark-submit
  20. Wie konvertiert man das rdd-Objekt in den Dataframe in Spark
  21. Wie definiere ich Partitionierung von DataFrame?
  22. So legen Sie den Apache Spark Executor-Speicher fest
  23. Apache Spark: Karte vs mapPartitions?
  24. Wie zeigt man den gesamten Spalteninhalt in einem Spark-Dataframe an?
  25. Importieren von Pyspark in Python-Shell
  26. Wie verhindert man java.lang.OutOfMemoryError: PermGen-Speicherplatz bei der Scala-Kompilierung?
  27. Wie wähle ich die erste Zeile jeder Gruppe?
  28. Wie richtet man Spark unter Windows ein?
  29. Spark - CSV-Datei als Dataframe laden?
  30. Wie man lokale Datei in sc.textFile anstelle von HDFS lädt
  31. Wie werden Phasen in Aufgaben in Spark aufgeteilt?
  32. Fehler bei Verwendung von OFF_HEAP Storage mit Spark 1.4.0 und Tachyon 0.6.4
  33. Wie überschreibt man das Ausgabeverzeichnis in Spark?
  34. Wie wird in Spark SQL nach Spalte in absteigender Reihenfolge sortiert?
  35. Wie füge ich einem Spark DataFrame (mit PySpark) eine neue Spalte hinzu?
  36. Wie ändere ich Datenrahmenspaltennamen in pyspark?
  37. Wie kann saveAsTextFile nicht in mehrere Dateien aufgeteilt werden?
  38. Schreiben Sie eine einzelne CSV-Datei mit Spark-CSV
  39. Wie übergeben Sie -D-Parameter oder Umgebungsvariable an Spark-Job?
  40. Was bedeutet "Stage Skipped" in der Apache Spark-Webbenutzeroberfläche?
  41. Spark - Fehler "Eine Master-URL muss in Ihrer Konfiguration festgelegt werden" beim Absenden einer App
  42. Umbenennen von Spaltennamen eines Datenrahmens in Spark Scala
  43. Welchen Clustertyp sollte ich für Spark auswählen?
  44. Wie funktioniert HashPartitioner?
  45. Schreiben Sie mit dem Schlüssel Spark - ein Spark-Job auf mehrere Ausgaben
  46. Laden Sie die CSV-Datei mit Spark
  47. Warum schlagen Spark-Aufträge mit org.apache.spark.shuffle.MetadataFetchFailedException fehl: Fehlender Ausgabespeicherort für Zufall 0 im Spekulationsmodus?
  48. Wie ist die Beziehung zwischen Arbeitern, Arbeiterinstanzen und Testamentsvollstreckern?
  49. Was bedeuten die Zahlen auf dem Fortschrittsbalken in Spark-Shell?
  50. Wie füge ich eine konstante Spalte in einem Spark DataFrame hinzu?