복붙노트

[HADOOP] hadoop의 압축을 해제하는 방법은 출력 파일을 줄이면서 끝내줍니다.

HADOOP

hadoop의 압축을 해제하는 방법은 출력 파일을 줄이면서 끝내줍니다.

기본 코덱으로 snappy를 사용하는 hadoop 클러스터. Hadoop 작업 축소 출력 파일 이름은 part-r-00000.snappy와 같습니다. JSnappy는 bcz 파일을 압축 해제하지 못합니다. JSnappy는 SNZ로 파일 시작을 요구합니다. reduce 출력 파일은 어떻게 든 몇 바이트 0부터 시작합니다.

파일을 어떻게 압축 해제 할 수 있습니까?

해결법

  1. ==============================

    1."Hadoop fs -text"를 사용하여이 파일을 읽고 txt 파일로 파이프하십시오. 전의:

    "Hadoop fs -text"를 사용하여이 파일을 읽고 txt 파일로 파이프하십시오. 전의:

    hadoop fs -text part-r-00001.snappy> /tmp/mydatafile.txt

  2. from https://stackoverflow.com/questions/19805149/how-to-decompress-the-hadoop-reduce-output-file-end-with-snappy by cc-by-sa and MIT license