performance - Apache Spark:map対mapPartitions?

performance - Apache Spark:map対mapPartitions?

RDD's mapとmapPartitions RDD's違いは何ですか? また、 flatMapはmapやflatMapように動作しますか? ありがとう。(編集)つまり、(意味的にまたは実行の点で)違いは何ですか? def map[A, B](rdd: RDD[A], fn:(A=> B))(implicit a: Manifest[A], b:…


scala - RDDの内容を印刷するには?

私はコレクションの内容をSparkコンソールに印刷しようとしています。 私はタイプがあります: linesWithSessionId: org.apache.spark.rdd.RDD[String]=FilteredRDD[3] 私は次のコマンドを使用します: scala> linesWithSessionId.map(line=> println(line)) しかし、これは印…


Scala SparkでRDDをソートする方法は?

Sparkメソッドの読み込みsortByKey: sortByKey([ascending],[numTasks]) When called on a dataset of(K, V) pairs where K implements Ordered, returns a dataset of(K, V) pairs sorted by keys in ascending or de…



apache spark - “ saveAsTextFile”を使用したときにSparkによって生成されるファイルは何ですか?

Sparkジョブを実行し、 https://spark.apache.org/docs/0.9.1/api/core/index.html#org.apache.spark.rdd.RDD//spark.apache.org/docs/0.9.1/api/core/index.html#org.apacheで指定されているように、メソッド "saveAsTextFile"を使用して出力をテキ…


scala - SparkのgroupByKeyは元の順序を保持しますか?

Sparkでは、 groupByKey関数は(K,V)ペアRDDを(K,Iterable<V>)ペアRDDに(K,Iterable<V>)ます。 しかし、この機能は安定していますか? つまり、反復可能な順序は元の順序から維持されているのでしょうか。 たとえば、最初に次の形式のファイルを読んだとします。 K1;V11 K2;V21 K1;V12 私のK1イテラブルは(V12, V11)(つま…


Scala Sparkの分散マップ

Sparkは分散Mapコレクションタイプをサポートしますか? キーと値のペアであるHashMap[String、String]がある場合、これを分散Mapコレクション型に変換できますか? 要素にアクセスするために私は "フィルタ"を使用することができますが、私はこれが地図と同様に実行することを疑いますか?…


apache spark - DAGはRDDのカバーでどのように動作しますか?

Sparkの研究論文では、古典的なHadoop MapReduceに新しい分散プログラミングモデルが規定されており、Machine Learningに関する多くのケースで、単純化と大幅なパフォーマンス向上を主張しています。 しかし、 Directed Acyclic Graph用いたResilient Distributed Datasets internal mechanicsを明らかにするた…


position - SparkのRDDで要素の位置を取得するにはどうすればよいですか?

私はApache Sparkには新しく、コアデータ構造はRDDであることを知っています。 今、私は要素の位置情報を必要とするいくつかのアプリを書いています。 たとえば、ArrayListを(Java)RDDに変換した後、RDDの各整数について、その(グローバル)配列添字を知る必要があります。 それは可能ですか? 私が知っているように、RDDにはtake(int)関数があるので、位置情報はRDD…


python - pysparkのmapPartitions関数はどのように機能しますか?

だから私はPythonを使ってSparkを学ぼうとしている(Pyspark)。 関数mapPartitionsがどのように機能するのか知りたいのですが。 それがどんな入力を取り、どんな出力を与えるかです。 インターネットからは適切な例が見つかりませんでした。 たとえば、以下のようなリストを含むRDDオブジェクトがあります。[[1, 2, 3],[3, 2, 4],[5, 2, 7]]…


scala - スパークペアRDDの値による順序

以下のようなスパークペアのRDD(キー、カウント)があります。 Array[(String, Int)]=Array((a,1),(b,2),(c,1),(d,3)) スパークスカラAPIを使用して、値によってソートされた新しいペアRDDを取得する方法? 必要な結果: Array((d,3),(b,2),(a,1),(c,1))…




mappartitions rdd dataframe apache pyspark scala map サンプル groupbykey groupby