복붙노트

[HADOOP] 어떻게 pyspark 유사한 자바 파티션에 마루 파일을 작성하는?

HADOOP

어떻게 pyspark 유사한 자바 파티션에 마루 파일을 작성하는?

이 같은 pyspark의 파티션으로 마루 파일을 작성할 수 있습니다 :

rdd.write
 .partitionBy("created_year", "created_month")
 .parquet("hdfs:///my_file")

마루 파일 created_year, created_month에 자동 파티션입니다. 어떻게 자바에서 동일한 작업을 수행하기 위해? 나는 ParquetWriter 클래스에서 옵션을 볼 수 없습니다. 그렇게 할 수있는 또 다른 클래스가 있습니까?

감사,

해결법

  1. ==============================

    1.당신은 DataFrame으로 RDD를 변환 한 후 쓰기 마루 함수를 호출해야합니다.

    당신은 DataFrame으로 RDD를 변환 한 후 쓰기 마루 함수를 호출해야합니다.

    df = sql_context.createDataFrame(rdd)
    df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])
    
  2. from https://stackoverflow.com/questions/40234731/how-to-write-parquet-file-in-partition-in-java-similar-to-pyspark by cc-by-sa and MIT license