복붙노트

[HADOOP] 이진 입력이 하둡 스트리밍 작업?

HADOOP

이진 입력이 하둡 스트리밍 작업?

나는 SequenceFile 한 형식으로 바이너리 파일을 변환하고 싶습니다.

내가 원하는대로 표준 입력 및 출력 할 수있다에 해당 형식을 취하는 파이썬 스크립트가 있습니다.

입력 포맷은 라인 - 기반 아니다. 개별 레코드 따라서 출력 형식 \ t 분리 또는 \ n 인 라인으로 나눌 수없는 자신 이진.

나는 바이너리 형식을 소비하기 위해 하둡 스트리밍 인터페이스를 사용할 수 있습니까? 어떻게 바이너리 출력 형식을 생성 할 수 있습니까?

나는 대답은 "아니오"나는 다른 소리하지 않는 가정.

해결법

  1. ==============================

    1.당신은 출력으로 NullWritable을 사용하고 파이썬 스크립트의 내부에 직접 SequenceFile를 생성 고려할 수 있습니다. 당신은 후보 코드를 볼 수 GitHub의에서 하둡 - 파이썬 프로젝트를 찾아 볼 수 있습니다 : 그것은 틀림없이 비트는 sequencefile 생성을 처리하지 무거운 / 대형 틱 비록.

    당신은 출력으로 NullWritable을 사용하고 파이썬 스크립트의 내부에 직접 SequenceFile를 생성 고려할 수 있습니다. 당신은 후보 코드를 볼 수 GitHub의에서 하둡 - 파이썬 프로젝트를 찾아 볼 수 있습니다 : 그것은 틀림없이 비트는 sequencefile 생성을 처리하지 무거운 / 대형 틱 비록.

  2. from https://stackoverflow.com/questions/15012162/hadoop-streaming-job-with-binary-input by cc-by-sa and MIT license