[HADOOP] Hadoop gzip 압축 파일
HADOOPHadoop gzip 압축 파일
나는 hadoop을 처음 사용하고 wikipedia 덤프를 처리하려고합니다. 6.7GB gzip 압축 xml 파일입니다. hadoop은 gzip으로 압축 된 파일을 지원하지만 오직 하나의 매퍼 만 압축을 풀 수 있기 때문에 한 번의 작업으로 매퍼가 처리 할 수 있다는 것을 읽었습니다. 이것은 처리에 제한을 두는 것처럼 보입니다. 대안이 있습니까? xml 파일을 여러 개의 청크로 압축 해제하고 gzip으로 재 압축하는 것과 같습니다.
http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html에서 hadoop gzip에 대해 읽었습니다.
당신의 도움을 주셔서 감사합니다.
해결법
-
==============================
1.GZIP 코덱으로 압축 된 파일은이 코덱의 작동 방식 때문에 분리 할 수 없습니다. Hadoop의 단일 SPLIT는 단일 매퍼에서만 처리 할 수 있습니다. 그래서 하나의 GZIP 파일은 하나의 Mapper에 의해서만 처리 될 수 있습니다.
GZIP 코덱으로 압축 된 파일은이 코덱의 작동 방식 때문에 분리 할 수 없습니다. Hadoop의 단일 SPLIT는 단일 매퍼에서만 처리 할 수 있습니다. 그래서 하나의 GZIP 파일은 하나의 Mapper에 의해서만 처리 될 수 있습니다.
그 한계를 극복하기위한 최소한 세 가지 방법이 있습니다.
HTH
-
==============================
2.이것은 HDFS에서 가장 큰 실수 중 하나입니다.
이것은 HDFS에서 가장 큰 실수 중 하나입니다.
gzip 파일로 압축 된 예 파일은 MapReduce로 분할 할 수 없지만 코덱으로 사용되는 GZip은 HDFS에 값이 없으며 분할 가능하게 만들 수 없습니다.
Gzip을 코덱으로 사용하면 RCFiles, 시퀀스 파일, Arvo 파일 및 더 많은 파일 형식과 함께 사용할 수 있습니다. Gzip 코덱이 이러한 분할 가능한 형식에서 사용될 때 Gzip과 분할 가능한 구성 요소의 뛰어난 압축 속도와 속도를 얻을 수 있습니다.
-
==============================
3.GZIP 파일은 코덱의 제한으로 인해 어떤 식 으로든 분할 할 수 없습니다. 6.7GB는 그리 크지 않기 때문에 단일 시스템에서 압축을 풀면 (1 시간 미만이 소요될 것입니다) XML을 HDFS로 복사합니다. 그런 다음 Hadoop에서 Wikipedia XML을 처리 할 수 있습니다.
GZIP 파일은 코덱의 제한으로 인해 어떤 식 으로든 분할 할 수 없습니다. 6.7GB는 그리 크지 않기 때문에 단일 시스템에서 압축을 풀면 (1 시간 미만이 소요될 것입니다) XML을 HDFS로 복사합니다. 그런 다음 Hadoop에서 Wikipedia XML을 처리 할 수 있습니다.
Cloud9에는 Hadoop에서 XML을 읽는 데 사용할 수있는 WikipediaPageInputFormat 클래스가 들어 있습니다.
-
==============================
4.왜 압축을 풀지 않고 Splittable LZ 압축을 대신 사용합니까?
왜 압축을 풀지 않고 Splittable LZ 압축을 대신 사용합니까?
http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/
from https://stackoverflow.com/questions/5630245/hadoop-gzip-compressed-files by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 테이블을 조인하는 중 하이브 쿼리의 오류 (0) | 2019.06.03 |
---|---|
[HADOOP] Hadoop : 키와 값은 출력 파일에서 탭으로 구분됩니다. 세미콜론으로 구분 된 방법은 무엇입니까? (0) | 2019.06.03 |
[HADOOP] 하이브의 문자를 대체하는 방법? (0) | 2019.06.03 |
[HADOOP] hadoop namenode 형식이 정확히 무엇입니까? (0) | 2019.06.03 |
[HADOOP] 원 사는 yarn.nodemanager.resource.cpu-vcores를 존중하지 않습니다. (0) | 2019.06.03 |