tutorial - El método reduceByKey no se encuentra en Scala Spark




parallelize spark (2)

Debe importar las conversiones implícitas de SparkContext :

import org.apache.spark.SparkContext._

Usan el patrón 'proxenetismo de mi biblioteca' para agregar métodos a los RDD de tipos específicos. Si es curioso, vea SparkContext:1296

Intenta ejecutar http://spark.apache.org/docs/latest/quick-start.html#a-standalone-app-in-scala desde el origen.

Esta línea:

val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

está arrojando un error

value reduceByKey is not a member of org.apache.spark.rdd.RDD[(String, Int)]
  val wordCounts = logData.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

logData.flatMap(line => line.split(" ")).map(word => (word, 1)) devuelve un MappedRDD pero no puedo encontrar este tipo en http://spark.apache.org/docs/0.9.1/api/core/index.html#org.apache.spark.rdd.RDD

Estoy ejecutando este código desde la fuente de Spark así que ¿podría ser un problema de classpath? Pero las dependencias requeridas están en mi classpath.






rdd