apache-spark 502

  1. Apache Spark與Apache Storm
  2. Apache Spark和Apache Flink有什麼區別?
  3. 任務不是可序列化的:只在類而非對像上調用函數外部的函數時,java.io.NotSerializableException
  4. 緩存和持久性有什麼區別?
  5. DataFrame(Spark 2.0中的DataSet [Row])和Spark中的RDD之間的區別
  6. Spark java.lang.OutOfMemoryError:Java堆空間
  7. map和flatMap之間有什麼區別,每個都有一個很好的用例?
  8. 如何將多個文本文件讀入單個RDD?
  9. Apache Spark:核心數量與執行者數量的關係
  10. 什麼是Spark Standalone群集中的工作者,執行者,核心?
  11. Spark對Scala和Python的性能
  12. (為什麼)我們需要調用緩存還是堅持RDD
  13. Spark - 重新分區()vs coalesce()
  14. 如何更改Spark SQL的DataFrame中的列類型?
  15. 如何在數據集中存儲自定義對象?
  16. 如何關閉Spark中的INFO日誌記錄?
  17. 如何停止在火花控制台上顯示的INFO消息?
  18. 如何打印RDD的內容?
  19. 將Spark添加到Spark作業 - spark-submit
  20. 如何將rdd對象轉換為spark中的數據框
  21. 如何定義DataFrame的分區?


  22. 如何設置Apache Spark Executor內存
  23. Apache Spark:map vs mapPartitions?
  24. 如何在Spark Dataframe中顯示完整的列內容?
  25. 在python shell中導入pyspark
  26. 如何防止java.lang.OutOfMemoryError:Scala編譯時的PermGen空間?
  27. 如何選擇每個組的第一行?
  28. 如何在Windows上設置Spark?
  29. Spark - 將CSV文件加載為DataFrame?
  30. 如何在sc.textFile中加載本地文件,而不是HDFS
  31. 如何將階段拆分為Spark中的任務?
  32. 使用Spark 1.4.0和Tachyon 0.6.4使用OFF_HEAP Storage時出錯
  33. 如何覆蓋spark中的輸出目錄
  34. 如何在Spark SQL中按降序排序列?
  35. 如何向Spark DataFrame添加新列(使用PySpark)?
  36. 如何在pyspark中更改數據框列名?
  37. 如何使saveAsTextFile NOT分割輸出到多個文件?
  38. 使用spark-csv編寫單個CSV文件
  39. 如何將-D參數或環境變量傳遞給Spark作業?
  40. Apache Spark Web UI中“Stage Skipped”的含義是什麼?
  41. Spark - 提交應用程序時出現錯誤“必須在配置中設置主URL”
  42. 在Spark Scala中重命名DataFrame的列名
  43. 我應該為Spark選擇哪種群集類型?
  44. HashPartitioner如何運作?
  45. 通過鍵Spark寫入多個輸出 - 一個Spark作業
  46. 使用Spark加載CSV文件
  47. 為什麼Spark作業會因org.apache.spark.shuffle.MetadataFetchFailedException而失敗:在推測模式下缺少shuffle 0的輸出位置?
  48. 工人,工人實例和執行者之間的關係是什麼?
  49. 進度條上的數字在火花殼中意味著什麼?
  50. 如何在Spark DataFrame中添加常量列?