[HADOOP] 이진 입력이 하둡 스트리밍 작업?
HADOOP이진 입력이 하둡 스트리밍 작업?
나는 SequenceFile 한 형식으로 바이너리 파일을 변환하고 싶습니다.
내가 원하는대로 표준 입력 및 출력 할 수있다에 해당 형식을 취하는 파이썬 스크립트가 있습니다.
입력 포맷은 라인 - 기반 아니다. 개별 레코드 따라서 출력 형식 \ t 분리 또는 \ n 인 라인으로 나눌 수없는 자신 이진.
나는 바이너리 형식을 소비하기 위해 하둡 스트리밍 인터페이스를 사용할 수 있습니까? 어떻게 바이너리 출력 형식을 생성 할 수 있습니까?
나는 대답은 "아니오"나는 다른 소리하지 않는 가정.
해결법
-
==============================
1.당신은 출력으로 NullWritable을 사용하고 파이썬 스크립트의 내부에 직접 SequenceFile를 생성 고려할 수 있습니다. 당신은 후보 코드를 볼 수 GitHub의에서 하둡 - 파이썬 프로젝트를 찾아 볼 수 있습니다 : 그것은 틀림없이 비트는 sequencefile 생성을 처리하지 무거운 / 대형 틱 비록.
당신은 출력으로 NullWritable을 사용하고 파이썬 스크립트의 내부에 직접 SequenceFile를 생성 고려할 수 있습니다. 당신은 후보 코드를 볼 수 GitHub의에서 하둡 - 파이썬 프로젝트를 찾아 볼 수 있습니다 : 그것은 틀림없이 비트는 sequencefile 생성을 처리하지 무거운 / 대형 틱 비록.
from https://stackoverflow.com/questions/15012162/hadoop-streaming-job-with-binary-input by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 이 / tmp를 / 아래 디렉토리를 만들 수 없습니다로 충돌 원사 타임 라인 서비스 (0) | 2019.09.18 |
---|---|
[HADOOP] HIVE 삽입 분할 된 테이블로 덮어 (0) | 2019.09.18 |
[HADOOP] 클러스터를 하둡과 "하둡 단지"로 실행하는 실행 항아리 보내기 (0) | 2019.09.18 |
[HADOOP] 어떻게 하이브 저장 데이터 (HDFS에서로드)? (0) | 2019.09.18 |
[HADOOP] 윈도우 기능을 사용하여 지원 스파크 (0) | 2019.09.18 |