apache-spark - شرح - spark برنامجكيفية تنفيذ زيادة السيارات في شرارة سكل(بيسبارك) (1)

أنا بحاجة إلى تنفيذ عمود زيادة السيارات في بلدي شرارة الجدول سكل، كيف يمكن أن أفعل ذلك. يرجى توجيه لي. أنا باستخدام بيسبارك 2.0

شكرا لك كاليان


أود أن أكتب / إعادة استخدام هايف الدولة ودف التسجيل مع بيسبارك كما سبارك سكل لديها دعم جيد ل خلية.

تحقق من هذا الخط @UDFType(deterministic = false, stateful = true) في التعليمات البرمجية أدناه للتأكد من أنها أودف.

package org.apache.hadoop.hive.contrib.udf;

import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.hive.ql.udf.UDFType;
import org.apache.hadoop.io.LongWritable;

/**
 * UDFRowSequence.
 */
@Description(name = "row_sequence",
  value = "_FUNC_() - Returns a generated row sequence number starting from 1")
@UDFType(deterministic = false, stateful = true)
public class UDFRowSequence extends UDF
{
 private LongWritable result = new LongWritable();

 public UDFRowSequence() {
  result.set(0);
 }

 public LongWritable evaluate() {
  result.set(result.get() + 1);
  return result;
 }
}

// End UDFRowSequence.java

الآن بناء جرة وإضافة الموقع عندما بدأت بيسبارك الحصول على.

$ pyspark --jars your_jar_name.jar

ثم تسجيل مع sqlContext .

sqlContext.sql("CREATE TEMPORARY FUNCTION row_seq AS 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence'")

الآن استخدم row_seq() في استعلام تحديد

sqlContext.sql("SELECT row_seq(), col1, col2 FROM table_name")

مشروع استخدام هيف أوفس في بيسبارك

pyspark-sql