복붙노트

[HADOOP] 사용자 정의 이진 입력 - 하둡

HADOOP

사용자 정의 이진 입력 - 하둡

나는 하둡에서 데모 애플리케이션을 개발하고 내 입력 .mrc 이미지 파일입니다. 나는 하둡과 그들에 몇 가지 이미지 프로세싱을 수행하는 그들을로드 할.

이러한 이미지 데이터 세트의 다음에 메타 데이터가 큰 헤더를 포함하는 바이너리 파일이다. 화상을 판독하는 방법에 대한 정보는 (헤더에 포함 된 예. NUMBER_OF_IMAGES, number_of_pixels_x, number_of_pixels_y, bytes_per_pixel 때문에 헤더 바이트 후에, 제 [number_of_pixels_x * number_of_pixels_y * bytes_per_pixel]있는 첫번째 이미지부터, 제 2 및 그렇다 의 위에].

파일의 이러한 종류의 좋은 입력 형식은 무엇입니까? 나는 두 가지 솔루션을 생각 :

나는 하둡에 새로운 오전, 그래서 내가 모르는 뭔가가있을 수 있습니다. 어떤 당신이 더 생각 접근? 내가 놓친 거지 다른 방법은?

해결법

  1. ==============================

    1.파일 형식을 모른 채 첫 번째 옵션은 더 나은 옵션이 될 것으로 보인다. 순서를 사용하면 더 나은 성능을 얻을 수 SequenceFile 관련 도구를 많이 활용할 수 있습니다 파일. 그러나이 방법 저를 염려 할 두 가지가있다.

    파일 형식을 모른 채 첫 번째 옵션은 더 나은 옵션이 될 것으로 보인다. 순서를 사용하면 더 나은 성능을 얻을 수 SequenceFile 관련 도구를 많이 활용할 수 있습니다 파일. 그러나이 방법 저를 염려 할 두 가지가있다.

    그러나 심지어 우려, 나는 SequenceFile의에서 데이터를 표현하는 것이 최선의 선택이라고 생각합니다.

  2. from https://stackoverflow.com/questions/9465373/custom-binary-input-hadoop by cc-by-sa and MIT license