복붙노트

[HADOOP] 하나의 매퍼 만 사용하는 하둡 gzip 입력 파일 [중복]

HADOOP

하나의 매퍼 만 사용하는 하둡 gzip 입력 파일 [중복]

gzip으로 압축 된 입력 파일을 사용할 때 Hadoop이 내 맵 / 축소 작업을 처리하기 위해 단 하나의 맵 작업 만 할당하기로 선택했습니다.

gzip으로 압축 된 파일은 1.4GB 이상이므로 많은 매퍼가 병렬로 실행될 것으로 예상합니다 (압축 해제 된 파일을 사용할 때와 동일)

개선하기 위해 수행 할 수있는 구성이 있습니까?

해결법

  1. ==============================

    1.Gzip 파일은 분할 할 수 없으므로 모든 데이터가 하나의 맵으로 처리됩니다. 압축 파일을 분할 할 수있는 다른 압축 알고리즘을 사용해야합니다. 그러면 데이터가 여러 맵으로 처리됩니다. 여기에 좋은 기사가 있습니다. (1)

    Gzip 파일은 분할 할 수 없으므로 모든 데이터가 하나의 맵으로 처리됩니다. 압축 파일을 분할 할 수있는 다른 압축 알고리즘을 사용해야합니다. 그러면 데이터가 여러 맵으로 처리됩니다. 여기에 좋은 기사가 있습니다. (1)

    편집 : 여기 Snappy (2)에 관한 또 다른 기사가 있습니다.

    (1) http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

    (2) http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/

  2. from https://stackoverflow.com/questions/7388436/hadoop-gzip-input-file-using-only-one-mapper by cc-by-sa and MIT license