복붙노트

[HADOOP] Hadoop gzip 압축 파일

HADOOP

Hadoop gzip 압축 파일

나는 hadoop을 처음 사용하고 wikipedia 덤프를 처리하려고합니다. 6.7GB gzip 압축 xml 파일입니다. hadoop은 gzip으로 압축 된 파일을 지원하지만 오직 하나의 매퍼 만 압축을 풀 수 있기 때문에 한 번의 작업으로 매퍼가 처리 할 수 ​​있다는 것을 읽었습니다. 이것은 처리에 제한을 두는 것처럼 보입니다. 대안이 있습니까? xml 파일을 여러 개의 청크로 압축 해제하고 gzip으로 재 압축하는 것과 같습니다.

http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html에서 hadoop gzip에 대해 읽었습니다.

당신의 도움을 주셔서 감사합니다.

해결법

  1. ==============================

    1.GZIP 코덱으로 압축 된 파일은이 코덱의 작동 방식 때문에 분리 할 수 ​​없습니다. Hadoop의 단일 SPLIT는 단일 매퍼에서만 처리 할 수 ​​있습니다. 그래서 하나의 GZIP 파일은 하나의 Mapper에 의해서만 처리 될 수 있습니다.

    GZIP 코덱으로 압축 된 파일은이 코덱의 작동 방식 때문에 분리 할 수 ​​없습니다. Hadoop의 단일 SPLIT는 단일 매퍼에서만 처리 할 수 ​​있습니다. 그래서 하나의 GZIP 파일은 하나의 Mapper에 의해서만 처리 될 수 있습니다.

    그 한계를 극복하기위한 최소한 세 가지 방법이 있습니다.

    HTH

  2. ==============================

    2.이것은 HDFS에서 가장 큰 실수 중 하나입니다.

    이것은 HDFS에서 가장 큰 실수 중 하나입니다.

    gzip 파일로 압축 된 예 파일은 MapReduce로 분할 할 수 없지만 코덱으로 사용되는 GZip은 HDFS에 값이 없으며 분할 가능하게 만들 수 없습니다.

    Gzip을 코덱으로 사용하면 RCFiles, 시퀀스 파일, Arvo 파일 및 더 많은 파일 형식과 함께 사용할 수 있습니다. Gzip 코덱이 이러한 분할 가능한 형식에서 사용될 때 Gzip과 분할 가능한 구성 요소의 뛰어난 압축 속도와 속도를 얻을 수 있습니다.

  3. ==============================

    3.GZIP 파일은 코덱의 제한으로 인해 어떤 식 으로든 분할 할 수 없습니다. 6.7GB는 그리 크지 않기 때문에 단일 시스템에서 압축을 풀면 (1 시간 미만이 소요될 것입니다) XML을 HDFS로 복사합니다. 그런 다음 Hadoop에서 Wikipedia XML을 처리 할 수 ​​있습니다.

    GZIP 파일은 코덱의 제한으로 인해 어떤 식 으로든 분할 할 수 없습니다. 6.7GB는 그리 크지 않기 때문에 단일 시스템에서 압축을 풀면 (1 시간 미만이 소요될 것입니다) XML을 HDFS로 복사합니다. 그런 다음 Hadoop에서 Wikipedia XML을 처리 할 수 ​​있습니다.

    Cloud9에는 Hadoop에서 XML을 읽는 데 사용할 수있는 WikipediaPageInputFormat 클래스가 들어 있습니다.

  4. ==============================

    4.왜 압축을 풀지 않고 Splittable LZ 압축을 대신 사용합니까?

    왜 압축을 풀지 않고 Splittable LZ 압축을 대신 사용합니까?

    http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

  5. from https://stackoverflow.com/questions/5630245/hadoop-gzip-compressed-files by cc-by-sa and MIT license