복붙노트

[HADOOP] Zip 입력 파일을 사용한 하둡 스트리밍

HADOOP

Zip 입력 파일을 사용한 하둡 스트리밍

입력 파일이 zip 파일 내부의 CSV 인 스트리밍 작업을 실행하려고합니다. 나는 이것을 사용하려고 시도했지만 CDH4에서 작동하지 않는 것 같습니다 (org.apache.hadoop.mapred.InputFormat이 아닌 com.cotdp.hadoop.ZipFileInputFormat 오류 클래스가 나타납니다)

zip 파일로 스트리밍하는 데 사용할 수있는 입력 파일 리더를 아는 사람이 있습니까? 가능한 경우 다중 파일 리더를 찾고 있습니다 (최상위 디렉토리를 제공 할 수 있음).

해결법

  1. ==============================

    1.나는 zipstream을 작성했다.

    나는 zipstream을 작성했다.

    zip의 첫 번째 파일 만 처리하므로 나중에 여러 파일에 대한 지원을 추가 할 것입니다.

  2. ==============================

    2.입력 형식에는 두 개의 hadoop API가 있습니다. mapred.InputFormat 및 mapreduce.InputFormat.

    입력 형식에는 두 개의 hadoop API가 있습니다. mapred.InputFormat 및 mapreduce.InputFormat.

    mapreduce는 최신 API이며 가능한 경우 사용해야합니다.

    ZipInputFormat이 실제로 구현 한 InputFormat을 확인합니다. mapreduce 버전을 구현하는 경우 작업을이 두 번째 API로 이동해야합니다.

    약간의 배경 지식 : 이전 Hadoop 버전에서 '매핑 된'은 새롭고 더 빠르고 깔끔한 구현 인 'mapreduce'를 선호하여 감가 상각되었습니다. 불행히도이 새로운 API는 이전 API의 모든 기능을 포함하지 않았기 때문에 최신 버전의 Hadoop '매핑 된'이 복원되었으며 이제 기본적으로 동일한 기능을하는 두 개의 API가 있습니다.

  3. from https://stackoverflow.com/questions/15257447/hadoop-streaming-with-zip-input-files by cc-by-sa and MIT license