apache-spark 351

  1. Apache Spark vs. Apache Storm
  2. ¿Cuál es la diferencia entre Apache Spark y Apache Flink?
  3. Tarea no serializable: java.io.NotSerializableException cuando se llama a la función fuera del cierre solo en clases no en objetos
  4. ¿Cuál es la diferencia entre caché y persistencia?
  5. Spark java.lang.OutOfMemoryError: espacio de pila de Java
  6. ¿Cómo leer múltiples archivos de texto en un solo RDD?
  7. ¿Cuál es la diferencia entre map y flatMap y un buen caso de uso para cada uno?
  8. Diferencia entre DataFrame (en Spark 2.0, es decir, DataSet [Row]) y RDD en Spark
  9. Apache Spark: la cantidad de núcleos frente a la cantidad de ejecutores
  10. (Por qué) necesitamos llamar al caché o persistir en un RDD
  11. Rendimiento de chispa para Scala vs Python
  12. ¿Qué son los trabajadores, los ejecutores, los núcleos en el clúster de Spark Standalone?
  13. ¿Cómo desactivar el registro INFO en PySpark?
  14. ¿Cómo cambiar los tipos de columna en el DataFrame de Spark SQL?
  15. ¿Cómo almacenar objetos personalizados en Dataset?
  16. Cómo convertir objetos rdd a dataframe en spark
  17. ¿Cómo se define la partición de DataFrame?
  18. Cómo imprimir los contenidos de RDD?
  19. Cómo evitar java.lang.OutOfMemoryError: PermGen space en la compilación Scala?
  20. Apache Spark: map vs mapPartitions?
  21. Spark - repartition () vs coalesce ()
  22. Cómo configurar la memoria Apache Spark Executor
  23. Cómo detener los mensajes que se muestran en la consola de chispa?
  24. Importación de pyspark en shell python
  25. Errores al usar el almacenamiento OFF_HEAP con Spark 1.4.0 y Tachyon 0.6.4
  26. Agregue frascos a un trabajo de chispa - spark-submit
  27. Cómo cargar el archivo local en sc.textFile, en lugar de HDFS
  28. cómo hacer saveAsTextFile NO divide la salida en múltiples archivos?
  29. ¿Cómo configurar Spark en Windows?
  30. Cómo sobrescribir el directorio de salida en chispa
  31. ¿Cómo seleccionar la primera fila de cada grupo?
  32. ¿Cómo mostrar el contenido completo de la columna en un Spark Dataframe?
  33. Escribir en múltiples salidas con la tecla Spark - un trabajo Spark
  34. ¿Cuál es la diferencia entre Apache Mahout y Apache Spark's MLlib?
  35. ¿Por qué las tareas de Spark fallan con org.apache.spark.shuffle.MetadataFetchFailedException: falta una ubicación de salida para shuffle 0 en el modo de especulación?
  36. ¿Cómo ordenar por columna en orden descendente en Spark SQL?
  37. ¿Qué significa "Etapa omitida" en la interfaz de usuario web de Apache Spark?
  38. ¿Qué tipo de clúster debería elegir para Spark?
  39. Spark: ¿cuál es la mejor estrategia para unir un RDD de 2 tuplas con RDD de una sola llave?
  40. ¿Cómo convierto un archivo csv a rdd?
  41. ¿Cómo pasar el parámetro -D o la variable de entorno al trabajo Spark?
  42. Spark - carga el archivo CSV como DataFrame?
  43. ¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?
  44. ¿Cómo funciona DAG bajo las cubiertas en RDD?
  45. Adjunte una columna al Marco de Datos en Apache Spark 1.3
  46. Extrae valores de columna de Dataframe como List en Apache Spark
  47. ¿Cómo se dividen las etapas en tareas en Spark?
  48. Fast Hadoop Analytics (Cloudera Impala vs Spark / Shark vs Apache Drill)
  49. Spark Driver en Apache spark
  50. ¿Cuál es la relación entre los trabajadores, las instancias de los trabajadores y los ejecutores?