[HADOOP] 사용자 정의 이진 입력 - 하둡
HADOOP사용자 정의 이진 입력 - 하둡
나는 하둡에서 데모 애플리케이션을 개발하고 내 입력 .mrc 이미지 파일입니다. 나는 하둡과 그들에 몇 가지 이미지 프로세싱을 수행하는 그들을로드 할.
이러한 이미지 데이터 세트의 다음에 메타 데이터가 큰 헤더를 포함하는 바이너리 파일이다. 화상을 판독하는 방법에 대한 정보는 (헤더에 포함 된 예. NUMBER_OF_IMAGES, number_of_pixels_x, number_of_pixels_y, bytes_per_pixel 때문에 헤더 바이트 후에, 제 [number_of_pixels_x * number_of_pixels_y * bytes_per_pixel]있는 첫번째 이미지부터, 제 2 및 그렇다 의 위에].
파일의 이러한 종류의 좋은 입력 형식은 무엇입니까? 나는 두 가지 솔루션을 생각 :
나는 하둡에 새로운 오전, 그래서 내가 모르는 뭔가가있을 수 있습니다. 어떤 당신이 더 생각 접근? 내가 놓친 거지 다른 방법은?
해결법
-
==============================
1.파일 형식을 모른 채 첫 번째 옵션은 더 나은 옵션이 될 것으로 보인다. 순서를 사용하면 더 나은 성능을 얻을 수 SequenceFile 관련 도구를 많이 활용할 수 있습니다 파일. 그러나이 방법 저를 염려 할 두 가지가있다.
파일 형식을 모른 채 첫 번째 옵션은 더 나은 옵션이 될 것으로 보인다. 순서를 사용하면 더 나은 성능을 얻을 수 SequenceFile 관련 도구를 많이 활용할 수 있습니다 파일. 그러나이 방법 저를 염려 할 두 가지가있다.
그러나 심지어 우려, 나는 SequenceFile의에서 데이터를 표현하는 것이 최선의 선택이라고 생각합니다.
from https://stackoverflow.com/questions/9465373/custom-binary-input-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하둡에 InputFormat 사용자 정의 (0) | 2019.10.09 |
---|---|
[HADOOP] HDFS 사용하여 스파크에 하르 파일을 Gzip으로 압축 (0) | 2019.10.09 |
[HADOOP] 오류가 하둡의 HDFS에 로컬 파일 시스템에서 파일을 복사하는 동안 (0) | 2019.10.08 |
[HADOOP] 계획에 대한 파일 시스템 없습니다 : SFTP (0) | 2019.10.08 |
[HADOOP] 스칼라은 돼지 프로젝션 사용할 수 있습니다 (0) | 2019.10.08 |