pyspark (272)


java - Поддержка gzip в Spark

java - Поддержка gzip в Spark

Для проекта Big Data я планирую использовать spark,в которой есть некоторые интересные функции, такие как вычисления в памяти для повторяющихся рабочих нагрузок. Он может работать на локальных фа…


out of memory - Spark java.lang.OutOfMemoryError: пространство кучи Java

Мой кластер: 1 мастер, 11 подчиненных устройств, каждый узел имеет 6 ГБ памяти. Мои настройки: spark.executor.memory=4g, Dspark.akka.frameSize=512 Вот проблема: Во-первых,я прочитал некоторые…


импорт pyspark в оболочке python

Это копия чужого вопроса на другом форуме, на который никогда не отвечали, поэтому я подумал, что перепрошу его здесь, поскольку у меня такая же проблема.(См. http://geekple.com/blogs/feeds/Xgzu7/po…


python - множественная ошибка SparkContexts в учебнике

Я пытаюсь запустить базовый учебник по pyspark Spark+Python-см. Http://spark.apache.org/docs/0.9.0/quick-start.html Когда я пытаюсь инициализировать новый SparkContext, from pyspark import Spa…


Как запустить графический интерфейс с Python/pyspark?

Я пытаюсь запустить Spark graphx с Python с помощью pyspark. Моя установка выглядит правильно, так как я умею запускать учебники pyspark и обучающие программы(Java) GraphX. Предположительно, поск…


python - Spark Context Textfile: загрузка нескольких файлов

Мне нужно обработать несколько файлов, разбросанных по различным каталогам. Я хотел бы загрузить все это в один RDD, а затем выполнить карту/уменьшить на нем. Я вижу, что SparkContext способен з…


file - Как писать в CSV в Spark

Я пытаюсь найти эффективный способ сохранить результат работы Spark Job в виде файла csv. Я использую Spark с Hadoop, и до сих пор все мои файлы сохраняются как part-00000.Любые идеи о том, как…


Использование reduceByKey в Apache Spark(Scala)

У меня есть список Tuples типа:(идентификатор пользователя, имя, счетчик). Например, val x=sc.parallelize(List(("a", "b", 1),("a", "b", 1),("c", "b", 1),("a", "d", 1)))…



distinct - Эффективный подсчет с Apache Spark

100 миллионов клиентов кликают 100 миллиардов раз на страницах нескольких веб-сайтов(скажем, 100 сайтов). И поток кликов доступен вам в большом наборе данных. Используя абстракции Apache Spark,…


python - Создание большого словаря в pyspark

Я пытаюсь решить следующую проблему, используя pyspark. У меня есть файл на hdfs в формате, который является дампом таблицы поиска. key1, value1 key2, value2... Я хочу загрузить это в словарь py…




spark dataframe example dataset sql read groupby apache group python