apache-spark 356

  1. Apache Spark vs. Apache Storm
  2. Qual è la differenza tra Apache Spark e Apache Flink?
  3. Attività non serializzabile: java.io.NotSerializableException quando si chiama la funzione all'esterno della chiusura solo su classi non su oggetti
  4. Qual è la differenza tra cache e persist?
  5. Differenza tra DataFrame (in Spark 2.0 ovvero DataSet [Row]) e RDD in Spark
  6. Spark java.lang.OutOfMemoryError: spazio heap Java
  7. Qual è la differenza tra mappa e flatMap e un buon caso d'uso per ciascuno?
  8. Come leggere più file di testo in un singolo RDD?
  9. Apache Spark: il numero di core rispetto al numero di esecutori
  10. Che cosa sono i lavoratori, gli esecutori, i core nel cluster Spark Standalone?
  11. Spark performance per Scala vs Python
  12. (Perché) abbiamo bisogno di chiamare la cache o persistere su un RDD
  13. Spark - repartition () vs coalesce ()
  14. Come modificare i tipi di colonna in DataFrame di Spark SQL?
  15. Come conservare oggetti personalizzati in Dataset?
  16. Come disattivare la registrazione INFO in Spark?
  17. Come smettere di visualizzare i messaggi INFO sulla console spark?
  18. Come stampare il contenuto di RDD?
  19. Aggiungi vasi a un lavoro Spark: invia-scintilla
  20. Come convertire oggetto rdd in dataframe in spark
  21. Come definire il partizionamento di DataFrame?
  22. Come impostare la memoria di Apache Spark Executor
  23. Apache Spark: map vs mapPartitions?
  24. Come prevenire java.lang.OutOfMemoryError: PermGen space alla compilation Scala?
  25. importazione di pyspark in shell python
  26. Errori durante l'utilizzo di Storage OFF_HEAP con Spark 1.4.0 e Tachyon 0.6.4
  27. Come caricare il file locale in sc.textFile, invece di HDFS
  28. come rendere saveAsTextText NON dividere l'output in più file?
  29. Come impostare Spark su Windows?
  30. Come sovrascrivere la directory di output in spark
  31. Come mostrare il contenuto completo della colonna in un Dataframe Spark?
  32. Come cambiare i nomi delle colonne del dataframe in pyspark?
  33. Qual è la differenza tra Apache Mahout e Apli Spark's MLlib?
  34. Perché i processi di Spark falliscono con org.apache.spark.shuffle.MetadataFetchFailedException: Manca un percorso di output per lo shuffle 0 in modalità speculazione?
  35. Come ordinare per colonna in ordine decrescente in Spark SQL?
  36. Che cosa significa "Stage Skipped" significa nell'interfaccia utente web di Apache Spark?
  37. Quale tipo di cluster dovrei scegliere per Spark?
  38. Spark: qual è la migliore strategia per aderire a un RDD a due chiavi di tuple con RDD a chiave singola?
  39. Come posso convertire il file CSV in RDD
  40. Come passare il parametro -D o la variabile di ambiente al lavoro Spark?
  41. Come collegare PyCharm con PySpark?
  42. Spark - carica il file CSV come DataFrame?
  43. Come aggiungo una nuova colonna a Spark DataFrame (usando PySpark)?
  44. Come funziona DAG sotto le copertine in RDD?
  45. Aggiungi una colonna al Data Frame in Apache Spark 1.3
  46. Estrai i valori delle colonne di Dataframe come Elenco in Apache Spark
  47. In che modo le fasi si dividono in compiti in Spark?
  48. Analisi Hadoop veloce (Cloudera Impala vs Spark / Shark vs Apache Drill)
  49. Spark Driver nella scintilla di Apache
  50. Qual è la relazione tra lavoratori, istanze dei lavoratori ed esecutori?