function - 어떻게 하이브에 유닉스 시대의 시간 문자열을 변환하는

function - 어떻게 하이브에 유닉스 시대의 시간 문자열을 변환하는

timestamp 열을 포함하는 로그 파일이 있습니다. 타임 스탬프는 유닉스 에포크 시간 형식입니다. 년, 월, 일 파티션으로 타임 스탬프를 기반으로 파티션을 만들고 싶습니다. 지금까지이 작업을 수행했지만 오류가 발생했습니다. PARSE ERROR cannot recognize input '(' in column type 여기에 내 코드가…


apache spark - Spark에서 어떻게 파티션 작업이 가능합니까?

Apache Spark에서 파티셔닝이 어떻게 수행되는지 이해하려고합니다. 너희들도 도와 줄 수 있니? 다음은 시나리오입니다. 마스터와 각 코어가 1 개인 노드 2 개 크기가 10MB 인 파일 count.txt 다음은 몇 개의 파티션을 만드는가? rdd=sc.textFile(count.txt) 파일의 크기가 파티션의 수에 영향을 미칩…


apache spark - 파티션에있는 요소의 수를 얻는 방법?

파티션 ID가 주어지면 스파크 RDD 파티션의 요소 수를 구할 수있는 방법이 있습니까? 전체 파티션을 검사하지 않습니다. 이 같은: Rdd.partitions().get(index).size() 나는 spark 용 API를 보지 않는다. 어떤 아이디어? 해결 방법은 무엇입니까? 감사…


scala - Spark RDD 파티션이 HDFS에 2GB 제한이있는 이유는 무엇입니까?

mllib RandomForest를 사용하여 데이터를 조정할 때 오류가 발생했습니다. 내 데이터 세트가 크고 기본 파티션이 상대적으로 작기 때문에 그래서 "Size가 Integer.MAX_VALUE를 초과 함"을 나타내는 예외가 발생하면 다음과 같이 orignal 스택 추적이 발생합니다. 15/04/16 14:13:03 WARN scheduler…


scala - HashPartitioner는 어떻게 작동합니까?

HashPartitioner 문서를 읽었습니다. 불행히도 API 호출을 제외하고는 아무런 설명이 없습니다. HashPartitioner 가 키의 해시를 기반으로 분산 세트를 분할한다고 가정합니다. 예를 들어 내 데이터가(1,1),(1,2),(1,3),(2,1),(2,2),(2,3) 따라서 파티 셔 너는 이것을 동일한 파티션에 동일한 키가있는 다른 파티션에…



apache spark - 스파크-repartition() vs coalesce()

Learning Spark에 따르면 데이터를 다시 파티션하는 것은 비용이 많이 드는 작업입니다. 또한 Spark에는 데이터 이동을 피할 수있는 coalesce()라는 최적화 된 repartition() 버전이 있지만 RDD 파티션 수를 줄이려는 경우에만 가능합니다. 내가 얻는 한 가지 차이점은 repartition()을 사용하면 파티션 수를 늘리거나 줄일…


apache spark - RDD를 두 개 이상의 RDD로 어떻게 분할합니까?

RDD를 둘 이상의 RDD로 분할하는 방법을 찾고 있습니다. 내가 본 가장 가까운 것은 Scala Spark:여러 RDD로 컬렉션을 분할합니까? 여전히 단일 RDD입니다. SAS에 익숙하다면 다음과 같이하십시오. data work.split1, work.split2; set work.preSplit; if(condition1) output work.spli…


apache spark - Spark의 기본 파티션 나누기 계획

아래 명령을 실행할 때:scala> val rdd=sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)]=ShuffledRDD[10] at partitionBy at…


apache spark - DataFrame 파티션은 단일 파킹 파일로 분할(파티션 당)

파티션별로 하나의 파르킷 파일에 저장되도록 데이터를 수정/병합하고 싶습니다. 또한 Spark SQL partitionBy API를 사용하고 싶습니다. 그래서 이렇게 할 수 있습니다. df.coalesce(1).write.partitionBy("entity", "year", "month", "day", "status").mode(SaveMode.A…


scala - Spark SQL에서 추가 매개 변수를 UDF에 전달하려면 어떻게해야합니까?

DataFrame 에서 날짜 열을 구문 분석하고 각 날짜 열에 대해 날짜의 해상도가 변경 될 수 있습니다(예:해상도가 "월"로 설정된 경우 2011/01/10=> 2011/01). 다음 코드를 작성했습니다. def convertDataFrame(dataframe: DataFrame, schema:Array[FieldDataType], resolution:…




spark example dataframe pyspark partition write column rdd core coalesce