apache spark - write - Spark에서 어떻게 파티션 작업이 가능합니까?



spark repartition write (1)

기본적으로 파티션은 각 HDFS 파티션에 대해 생성되며 기본적으로 64MB입니다 ( Spark Programming Guide 참조 ).

spark가 생성하는 최소 파티션 수를 덮어 defaultMinPartitions 다른 매개 변수 인 defaultMinPartitions 를 전달할 수 있습니다. 이 값을 무시하지 않으면 spark는 적어도 spark.default.parallelism 만큼의 파티션을 spark.default.parallelism .

spark.default.parallelism 은 클러스터에있는 모든 시스템의 코어 수이기 때문에 최소한 3 개의 파티션이 작성되어 있다고 생각합니다.

RDD를 repartition 하거나 coalesce 사용 가능한 병렬 처리의 총량에 영향을주는 파티션 수를 변경할 수도 있습니다.

Apache Spark에서 파티셔닝이 어떻게 수행되는지 이해하려고합니다. 너희들도 도와 줄 수 있니?

다음은 시나리오입니다.

  • 마스터와 각 코어가 1 개인 노드 2 개
  • 크기가 10MB 인 파일 count.txt

다음은 몇 개의 파티션을 만드는가?

rdd = sc.textFile(count.txt)

파일의 크기가 파티션의 수에 영향을 미칩니 까?





partitioning