[python] 如何將pyspark中的表數據框導出到csv?



Answers

對於Apache Spark 2+,為了將數據幀保存到單個csv文件中。 使用以下命令

query.repartition(1).write.csv("cc_out.csv", sep='|')

這裡1表示我只需要一個csv分區。 你可以根據你的要求改變它。

Question

我正在使用spark-1.3.1(pyspark),我使用SQL查詢生成了一個表。 我現在有一個DataFrame對象。 我想將此DataFrame對象(我稱之為“table”)導出到csv文件,以便我可以操作它並繪製列。 如何將DataFrame“表”導出到csv文件?

謝謝!




怎麼樣(你不想要一個班輪)?

for row in df.collect():
    d = row.asDict()
    s = "%d\t%s\t%s\n" % (d["int_column"], d["string_column"], d["string_column"])
    f.write(s)

f是打開的文件描述符。 分隔符也是TAB字符,但很容易更改為您想要的任何內容。






Links