[HADOOP] 하나의 매퍼 만 사용하는 하둡 gzip 입력 파일 [중복]
HADOOP하나의 매퍼 만 사용하는 하둡 gzip 입력 파일 [중복]
gzip으로 압축 된 입력 파일을 사용할 때 Hadoop이 내 맵 / 축소 작업을 처리하기 위해 단 하나의 맵 작업 만 할당하기로 선택했습니다.
gzip으로 압축 된 파일은 1.4GB 이상이므로 많은 매퍼가 병렬로 실행될 것으로 예상합니다 (압축 해제 된 파일을 사용할 때와 동일)
개선하기 위해 수행 할 수있는 구성이 있습니까?
해결법
-
==============================
1.Gzip 파일은 분할 할 수 없으므로 모든 데이터가 하나의 맵으로 처리됩니다. 압축 파일을 분할 할 수있는 다른 압축 알고리즘을 사용해야합니다. 그러면 데이터가 여러 맵으로 처리됩니다. 여기에 좋은 기사가 있습니다. (1)
Gzip 파일은 분할 할 수 없으므로 모든 데이터가 하나의 맵으로 처리됩니다. 압축 파일을 분할 할 수있는 다른 압축 알고리즘을 사용해야합니다. 그러면 데이터가 여러 맵으로 처리됩니다. 여기에 좋은 기사가 있습니다. (1)
편집 : 여기 Snappy (2)에 관한 또 다른 기사가 있습니다.
(1) http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/
(2) http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/
from https://stackoverflow.com/questions/7388436/hadoop-gzip-input-file-using-only-one-mapper by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 네임 노드 형식이 데이터 노드 디스크 공간을 비우지 않습니다. (0) | 2019.08.07 |
---|---|
[HADOOP] HDFS에 파일을 저장하면 복제됩니까? (0) | 2019.08.07 |
[HADOOP] 맵 태스크가 항상 단일 노드에서 실행되는 이유 (0) | 2019.08.07 |
[HADOOP] 다른 사용자로 맵 축소 작업을 실행 (0) | 2019.08.07 |
[HADOOP] 하이브 테이블 생성 쿼리의 MismatchedTokenException (0) | 2019.08.07 |