scala - スパークスタンドアロンモード:HDFSに書き込まれたスパーク出力を圧縮する方法

scala - スパークスタンドアロンモード:HDFSに書き込まれたスパーク出力を圧縮する方法

私の他の質問に関連していますが、 someMap.saveAsTextFile("hdfs://HOST:PORT/out") RDDをHDFSに保存すると、gzipで出力を圧縮するようにsparkに指示するにはどうすればよいですか? Hadoopでは、 mapred.output.compress=true を使用して圧縮アルゴリズムを選択します mapred.output.co…


hadoop - RDDパーティションとスライスの違いは何ですか?

Spark Programming Guideには、スライスがRDD(並列コレクションまたはHadoopデータセットの両方)の機能として記述されています(「Sparkはクラスタの各スライスごとに1つのタスクを実行します」)。ただし、RDDパーシスタンスのセクションでは、紹介なしに。 また、 RDDのドキュメントでは、スライスの記述がないパーティションについてしか言及していませんが、 SparkC…


scala - SparkのgroupByKeyは元の順序を保持しますか?

Sparkでは、 groupByKey関数は(K,V)ペアRDDを(K,Iterable<V>)ペアRDDに(K,Iterable<V>)ます。 しかし、この機能は安定していますか? つまり、反復可能な順序は元の順序から維持されているのでしょうか。 たとえば、最初に次の形式のファイルを読んだとします。 K1;V11 K2;V21 K1;V12 私のK1イテラブルは(V12, V11)(つま…


Scala Sparkの分散マップ

Sparkは分散Mapコレクションタイプをサポートしますか? キーと値のペアであるHashMap[String、String]がある場合、これを分散Mapコレクション型に変換できますか? 要素にアクセスするために私は "フィルタ"を使用することができますが、私はこれが地図と同様に実行することを疑いますか?…


java - Sparkエグゼキュータの数を設定する方法

SparkConfigとSparkContextを持つエグゼキュータのJava(またはScala)コード量からどのように設定できますか? 私は2人の執行者を常に見かけます。 spark.default.parallelismは機能せず、何か別のものです。 エクゼキュータの数をクラスタサイズと同じになるように設定するだけですが、常に2つしかありません。 私は自分のクラスタサイズを知っています。…


java - パーティショニングの目的は何か

例えば、いくつかの要素を分割するつもりなら、私は次のようにすることができます: Stream.of("I", "Love", "Stack Overflow").collect(Collectors.partitioningBy(s-> s.length()>3)).forEach((k, v)-> System.out.println(k+"=> "…


apache spark - SparkパーティションはHDFSのファイルでどのように機能しますか?

HDFSを使用してクラスターでApache Sparkを使用しています。 私の知る限り、HDFSはデータノードでファイルを配布しています。 そのため、ファイルシステムに「file.txt」を置くと、パーティションに分割されます。 今私は電話しています rdd=SparkContext().textFile("hdfs://.../file.txt") Apache Sparkから。 rddは現在、…


java - ネストされたマップ関数でSPARK-5063を解決する方法

RDD変換とアクションは、ドライバによってのみ呼び出され、他の変換の内部では呼び出されません。 たとえば、rdd1.map(x=> rdd2.values.count()* x)は、rdd1.map変換内で値の変換およびカウント動作を実行できないため無効です。 詳細は、SPARK-5063を参照してください。 エラーが言っているように、私はメインマップ関数内でJavaRDDオブジェクトをマ…


java - SparkR filterRDDとflatMapが機能しない

SparkRのインストール方法について長い時間を費やした後、私はパッケージにいくつかの問題があるかもしれないと思います... 私はスパークすることが非常に新しいので、私が正しいことをしたかどうかわからないことを心に留めておいてください。 私はRとJDKをインストールしたばかりの新しいEC2 ubuntu 64ビットインスタンスから 私はgitでapache sparkレポジトリのクローン…



scala - HashPartitionerはどのように機能しますか?

HashPartitioner のドキュメントを読みました。 残念ながら、API呼び出し以外はあまり説明されていません。 私は、 HashPartitioner がキーのハッシュに基づいて分散セットをパーティション分割すると仮定しています。 たとえば、私のデータが(1,1),(1,2),(1,3),(2,1),(2,2),(2,3) そのため、パーティショナーはこれを同じパーティションに属する同じ…




spark dataframe rdd apache dataset repartition mappartitions 出力 パーティション数 サンプル