apache-spark 351

  1. Apache Spark vs. Apache Storm
  2. ¿Cuál es la diferencia entre Apache Spark y Apache Flink?
  3. Tarea no serializable: java.io.NotSerializableException cuando se llama a la función fuera del cierre solo en clases no en objetos
  4. ¿Cuál es la diferencia entre caché y persistencia?
  5. Spark java.lang.OutOfMemoryError: espacio de pila de Java
  6. ¿Cómo leer múltiples archivos de texto en un solo RDD?
  7. ¿Cuál es la diferencia entre map y flatMap y un buen caso de uso para cada uno?
  8. Diferencia entre DataFrame (en Spark 2.0, es decir, DataSet [Row]) y RDD en Spark
  9. Apache Spark: la cantidad de núcleos frente a la cantidad de ejecutores
  10. (Por qué) necesitamos llamar al caché o persistir en un RDD
  11. ¿Qué son los trabajadores, los ejecutores, los núcleos en el clúster de Spark Standalone?
  12. Rendimiento de chispa para Scala vs Python
  13. ¿Cómo desactivar el registro INFO en PySpark?
  14. ¿Cómo cambiar los tipos de columna en el DataFrame de Spark SQL?
  15. ¿Cómo almacenar objetos personalizados en Dataset?
  16. Cómo convertir objetos rdd a dataframe en spark
  17. ¿Cómo se define la partición de DataFrame?
  18. Cómo imprimir los contenidos de RDD?
  19. Cómo evitar java.lang.OutOfMemoryError: PermGen space en la compilación Scala?
  20. Apache Spark: map vs mapPartitions?
  21. Spark - repartition () vs coalesce ()
  22. Cómo configurar la memoria Apache Spark Executor
  23. Cómo detener los mensajes que se muestran en la consola de chispa?
  24. Importación de pyspark en shell python
  25. Errores al usar el almacenamiento OFF_HEAP con Spark 1.4.0 y Tachyon 0.6.4
  26. Agregue frascos a un trabajo de chispa - spark-submit
  27. Cómo cargar el archivo local en sc.textFile, en lugar de HDFS
  28. cómo hacer saveAsTextFile NO divide la salida en múltiples archivos?
  29. ¿Cómo configurar Spark en Windows?
  30. ¿Cómo seleccionar la primera fila de cada grupo?
  31. Cómo sobrescribir el directorio de salida en chispa
  32. ¿Cómo mostrar el contenido completo de la columna en un Spark Dataframe?
  33. Escribir en múltiples salidas con la tecla Spark - un trabajo Spark
  34. ¿Por qué las tareas de Spark fallan con org.apache.spark.shuffle.MetadataFetchFailedException: falta una ubicación de salida para shuffle 0 en el modo de especulación?
  35. ¿Qué significa "Etapa omitida" en la interfaz de usuario web de Apache Spark?
  36. ¿Cómo ordenar por columna en orden descendente en Spark SQL?
  37. ¿Cuál es la diferencia entre Apache Mahout y Apache Spark's MLlib?
  38. ¿Qué tipo de clúster debería elegir para Spark?
  39. Spark: ¿cuál es la mejor estrategia para unir un RDD de 2 tuplas con RDD de una sola llave?
  40. ¿Cómo pasar el parámetro -D o la variable de entorno al trabajo Spark?
  41. ¿Cómo convierto un archivo csv a rdd?
  42. ¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?
  43. Spark - carga el archivo CSV como DataFrame?
  44. ¿Cómo se dividen las etapas en tareas en Spark?
  45. ¿Cómo funciona DAG bajo las cubiertas en RDD?
  46. Adjunte una columna al Marco de Datos en Apache Spark 1.3
  47. Extrae valores de columna de Dataframe como List en Apache Spark
  48. Spark Driver en Apache spark
  49. Fast Hadoop Analytics (Cloudera Impala vs Spark / Shark vs Apache Drill)
  50. ¿Cuál es la relación entre los trabajadores, las instancias de los trabajadores y los ejecutores?