scala - read - spark sql example




Автоматически и элегантно выравнивает DataFrame в Spark SQL (5)

Все,

Существует ли элегантный и общепринятый способ выравнивания таблицы Spark SQL (Parquet) со столбцами, которые имеют вложенный StructType

Например

Если моя схема:

foo
 |_bar
 |_baz
x
y
z

Как выбрать его в виде плоской табличной формы, не прибегая к ручному запуску

df.select("foo.bar","foo.baz","x","y","z")

Другими словами, как мне получить результат вышеприведенного кода программно, используя только StructType и DataFrame


Вот функция, которая делает то, что вы хотите, и может иметь дело с несколькими вложенными столбцами, содержащими столбцы с одинаковым именем, с префиксом:

from pyspark.sql import functions as F

def flatten_df(nested_df):
    flat_cols = [c[0] for c in nested_df.dtypes if c[1][:6] != 'struct']
    nested_cols = [c[0] for c in nested_df.dtypes if c[1][:6] == 'struct']

    flat_df = nested_df.select(flat_cols +
                               [F.col(nc+'.'+c).alias(nc+'_'+c)
                                for nc in nested_cols
                                for c in nested_df.select(nc+'.*').columns])
    return flat_df

До:

root
 |-- x: string (nullable = true)
 |-- y: string (nullable = true)
 |-- foo: struct (nullable = true)
 |    |-- a: float (nullable = true)
 |    |-- b: float (nullable = true)
 |    |-- c: integer (nullable = true)
 |-- bar: struct (nullable = true)
 |    |-- a: float (nullable = true)
 |    |-- b: float (nullable = true)
 |    |-- c: integer (nullable = true)

После:

root
 |-- x: string (nullable = true)
 |-- y: string (nullable = true)
 |-- foo_a: float (nullable = true)
 |-- foo_b: float (nullable = true)
 |-- foo_c: integer (nullable = true)
 |-- bar_a: float (nullable = true)
 |-- bar_b: float (nullable = true)
 |-- bar_c: integer (nullable = true)

Вы также можете использовать SQL для выбора столбцов как плоских.

  1. Получить оригинальную схему данных
  2. Создать строку SQL, просматривая схему
  3. Запросите ваш оригинальный фрейм данных

Я сделал реализацию в Java: https://gist.github.com/ebuildy/3de0e2855498e5358e4eed1a4f72ea48

(используйте также рекурсивный метод, я предпочитаю способ SQL, чтобы вы могли легко проверить его через Spark-shell).


Просто хотел поделиться своим решением для Pyspark - это более или менее перевод решения @David Griffin, поэтому он поддерживает любой уровень вложенных объектов.

from pyspark.sql.types import StructType, ArrayType  

def flatten(schema, prefix=None):
    fields = []
    for field in schema.fields:
        name = prefix + '.' + field.name if prefix else field.name
        dtype = field.dataType
        if isinstance(dtype, ArrayType):
            dtype = dtype.elementType

        if isinstance(dtype, StructType):
            fields += flatten(dtype, prefix=name)
        else:
            fields.append(name)

    return fields


df.select(flatten(df.schema)).show()

Я добавил метод DataFrame#flattenSchema в проект spark-daria с открытым исходным кодом .

Вот как вы можете использовать функцию с вашим кодом.

import com.github.mrpowers.spark.daria.sql.DataFrameExt._
df.flattenSchema().show()

+-------+-------+---------+----+---+
|foo.bar|foo.baz|        x|   y|  z|
+-------+-------+---------+----+---+
|   this|     is|something|cool| ;)|
+-------+-------+---------+----+---+

Вы также можете указать разные разделители имен столбцов с помощью flattenSchema() .

df.flattenSchema(delimiter = "_").show()
+-------+-------+---------+----+---+
|foo_bar|foo_baz|        x|   y|  z|
+-------+-------+---------+----+---+
|   this|     is|something|cool| ;)|
+-------+-------+---------+----+---+

Этот параметр разделителя удивительно важен. Если вы выравниваете свою схему для загрузки таблицы в Redshift, вы не сможете использовать точки в качестве разделителя.

Вот полный фрагмент кода для генерации этого вывода.

val data = Seq(
  Row(Row("this", "is"), "something", "cool", ";)")
)

val schema = StructType(
  Seq(
    StructField(
      "foo",
      StructType(
        Seq(
          StructField("bar", StringType, true),
          StructField("baz", StringType, true)
        )
      ),
      true
    ),
    StructField("x", StringType, true),
    StructField("y", StringType, true),
    StructField("z", StringType, true)
  )
)

val df = spark.createDataFrame(
  spark.sparkContext.parallelize(data),
  StructType(schema)
)

df.flattenSchema().show()

Базовый код аналогичен коду Дэвида Гриффина (в случае, если вы не хотите добавлять зависимость spark-daria в ваш проект).

object StructTypeHelpers {

  def flattenSchema(schema: StructType, delimiter: String = ".", prefix: String = null): Array[Column] = {
    schema.fields.flatMap(structField => {
      val codeColName = if (prefix == null) structField.name else prefix + "." + structField.name
      val colName = if (prefix == null) structField.name else prefix + delimiter + structField.name

      structField.dataType match {
        case st: StructType => flattenSchema(schema = st, delimiter = delimiter, prefix = colName)
        case _ => Array(col(codeColName).alias(colName))
      }
    })
  }

}

object DataFrameExt {

  implicit class DataFrameMethods(df: DataFrame) {

    def flattenSchema(delimiter: String = ".", prefix: String = null): DataFrame = {
      df.select(
        StructTypeHelpers.flattenSchema(df.schema, delimiter, prefix): _*
      )
    }

  }

}

Я улучшаю свой предыдущий ответ и предлагаю решение своей проблемы, указанной в комментариях к принятому ответу.

Это принятое решение создает массив объектов Column и использует его для выбора этих столбцов. В Spark, если у вас есть вложенный DataFrame, вы можете выбрать дочерний столбец следующим образом: df.select("Parent.Child") и это возвращает DataFrame со значениями дочернего столбца и называется Child . Но если у вас одинаковые имена для атрибутов различных родительских структур, вы потеряете информацию о родительском элементе и можете получить идентичные имена столбцов и больше не сможете получить к ним доступ по имени, поскольку они однозначны.

Это была моя проблема.

Я нашел решение своей проблемы, может быть, это может помочь кому-то еще. Я назвал flattenSchema отдельно:

val flattenedSchema = flattenSchema(df.schema)

и это вернуло объекты массива столбцов. Вместо использования этого в select() , который возвращал бы DataFrame со столбцами, названными дочерним элементом последнего уровня, я отобразил исходные имена столбцов на себя как строки, затем после выбора столбца Parent.Child он переименовал его в Parent.Child вместо Child (для удобства я также заменил точки подчеркиванием):

val renamedCols = flattenedSchema.map(name => col(name.toString()).as(name.toString().replace(".","_")))

И тогда вы можете использовать функцию выбора, как показано в исходном ответе:

var newDf = df.select(renamedCols:_*)






apache-spark-sql