[HADOOP] Hadoop 분할 불가능 TextInputFormat
HADOOPHadoop 분할 불가능 TextInputFormat
전체 파일을 분할하지 않고 매퍼로 보낼 수있는 방법이 있습니까?
나는 이것을 읽었으나 중간 파일을 생성하지 않고 같은 일을하는 또 다른 방법이 있는지 궁금합니다. 이상적으로, 나는 Hadoop에 대한 명령 행에서 기존 옵션을 원한다.
Amazon EMR에서 Python 스크립트와 함께 스트리밍 기능을 사용하고 있습니다.
해결법
-
==============================
1.구성 속성 mapred.min.split.size를 거대한 (10G)로 설정하면됩니다.
구성 속성 mapred.min.split.size를 거대한 (10G)로 설정하면됩니다.
-D mapred.min.split.size=10737418240
또는 분할 할 수없는 코덱 (Gzip)을 사용하여 입력 파일을 압축합니다. .gz 확장자를 사용하면 TextInputFormat은 isSplittable (FileSystem, Path) 메서드에 false를 반환합니다.
from https://stackoverflow.com/questions/10969517/hadoop-non-splittable-textinputformat by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] JDBC API를 사용하여 하이브 종료 상태 또는 오류 코드를 캡처하는 방법 (0) | 2019.07.24 |
---|---|
[HADOOP] Elephantbird에서는 HDFS에서 데이터로드가 작동하지 않습니다. (0) | 2019.07.24 |
[HADOOP] Spark 메모리에 TB 파일 실행 (0) | 2019.07.24 |
[HADOOP] 하이브 JDBC Kerberos 연결 오류 (0) | 2019.07.24 |
[HADOOP] modify hadoop-env.sh를 제외하고 hadoop에서 시스템 속성을 지정하는 방법? (0) | 2019.07.24 |