apache-spark 504

  1. Apache Spark vs. Apache Storm
  2. ¿Cuál es la diferencia entre Apache Spark y Apache Flink?
  3. Tarea no serializable: java.io.NotSerializableException cuando se llama a la función fuera del cierre solo en clases no en objetos
  4. ¿Cuál es la diferencia entre caché y persistencia?
  5. Diferencia entre DataFrame (en Spark 2.0, es decir, DataSet [Row]) y RDD en Spark


  6. Spark java.lang.OutOfMemoryError: espacio de pila de Java
  7. ¿Cuál es la diferencia entre map y flatMap y un buen caso de uso para cada uno?
  8. ¿Cómo leer múltiples archivos de texto en un solo RDD?
  9. Apache Spark: la cantidad de núcleos frente a la cantidad de ejecutores
  10. ¿Qué son los trabajadores, los ejecutores, los núcleos en el clúster de Spark Standalone?
  11. Rendimiento de chispa para Scala vs Python
  12. (Por qué) necesitamos llamar al caché o persistir en un RDD
  13. Spark - repartition () vs coalesce ()
  14. ¿Cómo cambiar los tipos de columna en el DataFrame de Spark SQL?
  15. ¿Cómo almacenar objetos personalizados en Dataset?
  16. ¿Cómo desactivar el registro INFO en Spark?
  17. Cómo detener los mensajes INFO que se muestran en la consola de chispa?
  18. Cómo imprimir los contenidos de RDD?
  19. Agregue frascos a un trabajo de chispa - spark-submit
  20. Cómo convertir objetos rdd a dataframe en spark
  21. ¿Cómo se define la partición de DataFrame?
  22. Cómo configurar la memoria Apache Spark Executor
  23. Apache Spark: map vs mapPartitions?
  24. ¿Cómo mostrar el contenido completo de la columna en un Spark Dataframe?
  25. Importación de pyspark en shell python
  26. Cómo evitar java.lang.OutOfMemoryError: PermGen space en la compilación Scala?
  27. ¿Cómo seleccionar la primera fila de cada grupo?
  28. ¿Cómo configurar Spark en Windows?
  29. Spark - carga el archivo CSV como DataFrame?
  30. Cómo cargar el archivo local en sc.textFile, en lugar de HDFS
  31. ¿Cómo se dividen las etapas en tareas en Spark?
  32. Errores al usar el almacenamiento OFF_HEAP con Spark 1.4.0 y Tachyon 0.6.4
  33. Cómo sobrescribir el directorio de salida en chispa
  34. ¿Cómo ordenar por columna en orden descendente en Spark SQL?
  35. ¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?
  36. ¿Cómo cambiar los nombres de las columnas del dataframe en pyspark?
  37. cómo hacer saveAsTextFile NO divide la salida en múltiples archivos?
  38. Escribir un solo archivo CSV usando spark-csv
  39. ¿Cómo pasar el parámetro -D o la variable de entorno al trabajo Spark?
  40. ¿Qué significa "Etapa omitida" en la interfaz de usuario web de Apache Spark?
  41. Spark - Error "Se debe establecer una URL maestra en su configuración" al enviar una aplicación
  42. Cambiar el nombre de los nombres de columna de un DataFrame en Spark Scala
  43. ¿Qué tipo de clúster debería elegir para Spark?
  44. ¿Cómo funciona HashPartitioner?
  45. Escribir en múltiples salidas con la tecla Spark - un trabajo Spark
  46. Cargar archivo CSV con Spark
  47. ¿Por qué las tareas de Spark fallan con org.apache.spark.shuffle.MetadataFetchFailedException: falta una ubicación de salida para shuffle 0 en el modo de especulación?
  48. ¿Cuál es la relación entre los trabajadores, las instancias de los trabajadores y los ejecutores?
  49. ¿Qué significan los números en la barra de progreso en spark-shell?
  50. ¿Cómo agregar una columna constante en un Spark DataFrame?