[HADOOP] Zip 입력 파일을 사용한 하둡 스트리밍
HADOOPZip 입력 파일을 사용한 하둡 스트리밍
입력 파일이 zip 파일 내부의 CSV 인 스트리밍 작업을 실행하려고합니다. 나는 이것을 사용하려고 시도했지만 CDH4에서 작동하지 않는 것 같습니다 (org.apache.hadoop.mapred.InputFormat이 아닌 com.cotdp.hadoop.ZipFileInputFormat 오류 클래스가 나타납니다)
zip 파일로 스트리밍하는 데 사용할 수있는 입력 파일 리더를 아는 사람이 있습니까? 가능한 경우 다중 파일 리더를 찾고 있습니다 (최상위 디렉토리를 제공 할 수 있음).
해결법
-
==============================
1.나는 zipstream을 작성했다.
나는 zipstream을 작성했다.
zip의 첫 번째 파일 만 처리하므로 나중에 여러 파일에 대한 지원을 추가 할 것입니다.
-
==============================
2.입력 형식에는 두 개의 hadoop API가 있습니다. mapred.InputFormat 및 mapreduce.InputFormat.
입력 형식에는 두 개의 hadoop API가 있습니다. mapred.InputFormat 및 mapreduce.InputFormat.
mapreduce는 최신 API이며 가능한 경우 사용해야합니다.
ZipInputFormat이 실제로 구현 한 InputFormat을 확인합니다. mapreduce 버전을 구현하는 경우 작업을이 두 번째 API로 이동해야합니다.
약간의 배경 지식 : 이전 Hadoop 버전에서 '매핑 된'은 새롭고 더 빠르고 깔끔한 구현 인 'mapreduce'를 선호하여 감가 상각되었습니다. 불행히도이 새로운 API는 이전 API의 모든 기능을 포함하지 않았기 때문에 최신 버전의 Hadoop '매핑 된'이 복원되었으며 이제 기본적으로 동일한 기능을하는 두 개의 API가 있습니다.
from https://stackoverflow.com/questions/15257447/hadoop-streaming-with-zip-input-files by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Spark (Scala) 드라이버에서 로컬 파일 시스템으로 쓰기 및 읽기 (0) | 2019.09.08 |
---|---|
[HADOOP] Spark의 Hive 2.1.1-사용해야하는 Spark 버전 (0) | 2019.09.08 |
[HADOOP] 돼지 참조 (0) | 2019.09.08 |
[HADOOP] 하둡 : 슬레이브 노드가 시작되지 않습니다 (0) | 2019.09.08 |
[HADOOP] 하둡 클러스터의 노드 수 (0) | 2019.09.08 |