[HADOOP] 어떻게 pyspark 유사한 자바 파티션에 마루 파일을 작성하는?
HADOOP어떻게 pyspark 유사한 자바 파티션에 마루 파일을 작성하는?
이 같은 pyspark의 파티션으로 마루 파일을 작성할 수 있습니다 :
rdd.write
.partitionBy("created_year", "created_month")
.parquet("hdfs:///my_file")
마루 파일 created_year, created_month에 자동 파티션입니다. 어떻게 자바에서 동일한 작업을 수행하기 위해? 나는 ParquetWriter 클래스에서 옵션을 볼 수 없습니다. 그렇게 할 수있는 또 다른 클래스가 있습니까?
감사,
해결법
-
==============================
1.당신은 DataFrame으로 RDD를 변환 한 후 쓰기 마루 함수를 호출해야합니다.
당신은 DataFrame으로 RDD를 변환 한 후 쓰기 마루 함수를 호출해야합니다.
df = sql_context.createDataFrame(rdd) df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])
from https://stackoverflow.com/questions/40234731/how-to-write-parquet-file-in-partition-in-java-similar-to-pyspark by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 매트릭스 포맷 변환 끓는 (0) | 2019.09.19 |
---|---|
[HADOOP] 하둡에 타사 항아리를 포함 (0) | 2019.09.19 |
[HADOOP] - 스파크 제출 연결할 수 없습니다 (0) | 2019.09.19 |
[HADOOP] 여러 HBase를 테이블에 쓰기, 어떻게 context.write 사용합니까 (HKEY을 넣어)? (0) | 2019.09.19 |
[HADOOP] fs.default.name 또는 HDFS로 S3를 사용하십니까? (0) | 2019.09.19 |