apache-spark 356

  1. Apache Spark vs. Apache Storm
  2. ¿Cuál es la diferencia entre Apache Spark y Apache Flink?
  3. Tarea no serializable: java.io.NotSerializableException cuando se llama a la función fuera del cierre solo en clases no en objetos
  4. ¿Cuál es la diferencia entre caché y persistencia?
  5. Diferencia entre DataFrame (en Spark 2.0, es decir, DataSet [Row]) y RDD en Spark
  6. Spark java.lang.OutOfMemoryError: espacio de pila de Java
  7. ¿Cuál es la diferencia entre map y flatMap y un buen caso de uso para cada uno?
  8. ¿Cómo leer múltiples archivos de texto en un solo RDD?
  9. Apache Spark: la cantidad de núcleos frente a la cantidad de ejecutores
  10. ¿Qué son los trabajadores, los ejecutores, los núcleos en el clúster de Spark Standalone?
  11. Rendimiento de chispa para Scala vs Python
  12. (Por qué) necesitamos llamar al caché o persistir en un RDD
  13. Spark - repartition () vs coalesce ()
  14. ¿Cómo cambiar los tipos de columna en el DataFrame de Spark SQL?
  15. ¿Cómo almacenar objetos personalizados en Dataset?
  16. ¿Cómo desactivar el registro INFO en Spark?
  17. Cómo detener los mensajes INFO que se muestran en la consola de chispa?
  18. Cómo imprimir los contenidos de RDD?
  19. Agregue frascos a un trabajo de chispa - spark-submit
  20. Cómo convertir objetos rdd a dataframe en spark
  21. ¿Cómo se define la partición de DataFrame?
  22. Cómo configurar la memoria Apache Spark Executor
  23. Apache Spark: map vs mapPartitions?
  24. Cómo evitar java.lang.OutOfMemoryError: PermGen space en la compilación Scala?
  25. Importación de pyspark en shell python
  26. Errores al usar el almacenamiento OFF_HEAP con Spark 1.4.0 y Tachyon 0.6.4
  27. Cómo cargar el archivo local en sc.textFile, en lugar de HDFS
  28. cómo hacer saveAsTextFile NO divide la salida en múltiples archivos?
  29. ¿Cómo configurar Spark en Windows?
  30. Cómo sobrescribir el directorio de salida en chispa
  31. ¿Cómo seleccionar la primera fila de cada grupo?
  32. ¿Cómo mostrar el contenido completo de la columna en un Spark Dataframe?
  33. ¿Cómo cambiar los nombres de las columnas del dataframe en pyspark?
  34. Escribir en múltiples salidas con la tecla Spark - un trabajo Spark
  35. ¿Cuál es la diferencia entre Apache Mahout y Apache Spark's MLlib?
  36. ¿Por qué las tareas de Spark fallan con org.apache.spark.shuffle.MetadataFetchFailedException: falta una ubicación de salida para shuffle 0 en el modo de especulación?
  37. ¿Cómo ordenar por columna en orden descendente en Spark SQL?
  38. ¿Qué significa "Etapa omitida" en la interfaz de usuario web de Apache Spark?
  39. ¿Qué tipo de clúster debería elegir para Spark?
  40. Spark: ¿cuál es la mejor estrategia para unir un RDD de 2 tuplas con RDD de una sola llave?
  41. ¿Cómo convierto un archivo csv a rdd?
  42. ¿Cómo pasar el parámetro -D o la variable de entorno al trabajo Spark?
  43. Cómo vincular PyCharm con PySpark?
  44. Spark - carga el archivo CSV como DataFrame?
  45. ¿Cómo agrego una nueva columna a un Spark DataFrame (usando PySpark)?
  46. ¿Cómo funciona DAG bajo las cubiertas en RDD?
  47. Adjunte una columna al Marco de Datos en Apache Spark 1.3
  48. Extrae valores de columna de Dataframe como List en Apache Spark
  49. ¿Cómo se dividen las etapas en tareas en Spark?
  50. Fast Hadoop Analytics (Cloudera Impala vs Spark / Shark vs Apache Drill)