apache-spark 503

  1. Apache Spark vs. Apache Storm
  2. Qual è la differenza tra Apache Spark e Apache Flink?
  3. Attività non serializzabile: java.io.NotSerializableException quando si chiama la funzione all'esterno della chiusura solo su classi non su oggetti
  4. Qual è la differenza tra cache e persist?
  5. Differenza tra DataFrame (in Spark 2.0 ovvero DataSet [Row]) e RDD in Spark
  6. Spark java.lang.OutOfMemoryError: spazio heap Java


  7. Qual è la differenza tra mappa e flatMap e un buon caso d'uso per ciascuno?
  8. Come leggere più file di testo in un singolo RDD?
  9. Apache Spark: il numero di core rispetto al numero di esecutori
  10. Che cosa sono i lavoratori, gli esecutori, i core nel cluster Spark Standalone?
  11. Spark performance per Scala vs Python
  12. (Perché) abbiamo bisogno di chiamare la cache o persistere su un RDD
  13. Spark - repartition () vs coalesce ()
  14. Come modificare i tipi di colonna in DataFrame di Spark SQL?
  15. Come conservare oggetti personalizzati in Dataset?
  16. Come disattivare la registrazione INFO in Spark?
  17. Come smettere di visualizzare i messaggi INFO sulla console spark?
  18. Come stampare il contenuto di RDD?
  19. Aggiungi vasi a un lavoro Spark: invia-scintilla
  20. Come convertire oggetto rdd in dataframe in spark
  21. Come definire il partizionamento di DataFrame?
  22. Come impostare la memoria di Apache Spark Executor
  23. Apache Spark: map vs mapPartitions?
  24. Come mostrare il contenuto completo della colonna in un Dataframe Spark?
  25. importazione di pyspark in shell python
  26. Come prevenire java.lang.OutOfMemoryError: PermGen space alla compilation Scala?
  27. Come selezionare la prima riga di ogni gruppo?
  28. Come impostare Spark su Windows?
  29. Spark - carica il file CSV come DataFrame?
  30. Come caricare il file locale in sc.textFile, invece di HDFS
  31. In che modo le fasi si dividono in compiti in Spark?
  32. Errori durante l'utilizzo di Storage OFF_HEAP con Spark 1.4.0 e Tachyon 0.6.4
  33. Come sovrascrivere la directory di output in spark
  34. Come ordinare per colonna in ordine decrescente in Spark SQL?
  35. Come aggiungo una nuova colonna a Spark DataFrame (usando PySpark)?
  36. Come cambiare i nomi delle colonne del dataframe in pyspark?
  37. come rendere saveAsTextText NON dividere l'output in più file?
  38. Scrivi un singolo file CSV usando spark-csv
  39. Come passare il parametro -D o la variabile di ambiente al lavoro Spark?
  40. Che cosa significa "Stage Skipped" significa nell'interfaccia utente web di Apache Spark?
  41. Spark - Errore "Un URL principale deve essere impostato nella configurazione" quando si invia un'applicazione
  42. Rinominare i nomi delle colonne di un DataFrame in Spark Scala
  43. Quale tipo di cluster dovrei scegliere per Spark?
  44. Come funziona HashPartitioner?
  45. Scrivi su più uscite con il tasto Spark - un lavoro Spark
  46. Carica il file CSV con Spark
  47. Perché i processi di Spark falliscono con org.apache.spark.shuffle.MetadataFetchFailedException: Manca un percorso di output per lo shuffle 0 in modalità speculazione?
  48. Qual è la relazione tra lavoratori, istanze di lavoratori ed esecutori?
  49. Cosa significano i numeri sulla barra di avanzamento nella scintilla?
  50. Come aggiungere una colonna costante in Spark DataFrame?