복붙노트

[HADOOP] HDFS에 두 개의 마루 파일을 병합

HADOOP

HDFS에 두 개의 마루 파일을 병합

나는 마루 형식으로 HDFS의 일부 파일이 있습니다. 나는 하나 개의 큰 파일로이 파일을 병합하고 싶습니다.

내가 어떻게 할 수 있습니까?

나는 아래와 같이하지만, 텍스트 파일에 대한 몇 가지 일을했다.

hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file

그러나 수없는 마루 형식으로 원하는 결과를 달성했다.

어떻게 내 요구 사항을 달성 할 수 있습니까?

해결법

  1. ==============================

    1.HDFS 명령으로 마루 파일을 병합하기 위해 할 수 없습니다.

    HDFS 명령으로 마루 파일을 병합하기 위해 할 수 없습니다.

    당신이 마루 파일의 병합을 달성 할 수 마루 - 도구 라이브러리가있다. 이 명령은해야한다

    java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file>
    
  2. ==============================

    2.하둡은 단지 대신 $ 자바의 -jar ./parquet-tools 전에 $ 하둡 항아리를 사용하여 내부에 같은 도구는 여러 개의 파일을 병합 할 수 있습니다

    하둡은 단지 대신 $ 자바의 -jar ./parquet-tools 전에 $ 하둡 항아리를 사용하여 내부에 같은 도구는 여러 개의 파일을 병합 할 수 있습니다

  3. from https://stackoverflow.com/questions/44400331/merge-two-parquet-files-in-hdfs by cc-by-sa and MIT license