hadoop - spark pi calculation



Spark:HDFS의 기존 경로에 RDD 저장 (1)

saveAsTextFile 메소드를 사용하여 RDD 출력을 HDFS에 저장할 수 있습니다. 파일 경로가 이미 존재하는 경우이 메서드는 예외를 throw합니다.

HDFS의 기존 파일 경로에 RDDS를 저장해야하는 유스 케이스가 있습니다. 같은 경로에 이미 존재하는 데이터에 새로운 RDD 데이터를 추가하는 방법이 있습니까?


Spark 1.6부터 사용 가능한 한 가지 가능한 솔루션은 text 형식 및 append 모드로 DataFrames 를 사용하는 DataFrames 입니다.

val outputPath: String = ???

rdd.map(_.toString).toDF.write.mode("append").text(outputPath)




rdd