복붙노트

[HADOOP] Hadoop 분할 불가능 TextInputFormat

HADOOP

Hadoop 분할 불가능 TextInputFormat

전체 파일을 분할하지 않고 매퍼로 보낼 수있는 방법이 있습니까?

나는 이것을 읽었으나 중간 파일을 생성하지 않고 같은 일을하는 또 다른 방법이 있는지 궁금합니다. 이상적으로, 나는 Hadoop에 대한 명령 행에서 기존 옵션을 원한다.

Amazon EMR에서 Python 스크립트와 함께 스트리밍 기능을 사용하고 있습니다.

해결법

  1. ==============================

    1.구성 속성 mapred.min.split.size를 거대한 (10G)로 설정하면됩니다.

    구성 속성 mapred.min.split.size를 거대한 (10G)로 설정하면됩니다.

    -D mapred.min.split.size=10737418240
    

    또는 분할 할 수없는 코덱 (Gzip)을 사용하여 입력 파일을 압축합니다. .gz 확장자를 사용하면 TextInputFormat은 isSplittable (FileSystem, Path) 메서드에 false를 반환합니다.

  2. from https://stackoverflow.com/questions/10969517/hadoop-non-splittable-textinputformat by cc-by-sa and MIT license