사용자 정의 이진 입력 - 하둡

나는 하둡에서 데모 애플리케이션을 개발하고 내 입력 .mrc 이미지 파일입니다. 나는 하둡과 그들에 몇 가지 이미지 프로세싱을 수행하는 그들을로드 할.

이러한 이미지 데이터 세트의 다음에 메타 데이터가 큰 헤더를 포함하는 바이너리 파일이다. 화상을 판독하는 방법에 대한 정보는 (헤더에 포함 된 예. NUMBER_OF_IMAGES, number_of_pixels_x, number_of_pixels_y, bytes_per_pixel 때문에 헤더 바이트 후에, 제 [number_of_pixels_x * number_of_pixels_y * bytes_per_pixel]있는 첫번째 이미지부터, 제 2 및 그렇다 의 위에].

파일의 이러한 종류의 좋은 입력 형식은 무엇입니까? 나는 두 가지 솔루션을 생각 :

나는 하둡에 새로운 오전, 그래서 내가 모르는 뭔가가있을 수 있습니다. 어떤 당신이 더 생각 접근? 내가 놓친 거지 다른 방법은?

해결법

==============================
1.파일 형식을 모른 채 첫 번째 옵션은 더 나은 옵션이 될 것으로 보인다. 순서를 사용하면 더 나은 성능을 얻을 수 SequenceFile 관련 도구를 많이 활용할 수 있습니다 파일. 그러나이 방법 저를 염려 할 두 가지가있다.

파일 형식을 모른 채 첫 번째 옵션은 더 나은 옵션이 될 것으로 보인다. 순서를 사용하면 더 나은 성능을 얻을 수 SequenceFile 관련 도구를 많이 활용할 수 있습니다 파일. 그러나이 방법 저를 염려 할 두 가지가있다.

그러나 심지어 우려, 나는 SequenceFile의에서 데이터를 표현하는 것이 최선의 선택이라고 생각합니다.

from https://stackoverflow.com/questions/9465373/custom-binary-input-hadoop by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 하둡에 InputFormat 사용자 정의 (0)	2019.10.09
[HADOOP] HDFS 사용하여 스파크에 하르 파일을 Gzip으로 압축 (0)	2019.10.09
[HADOOP] 오류가 하둡의 HDFS에 로컬 파일 시스템에서 파일을 복사하는 동안 (0)	2019.10.08
[HADOOP] 계획에 대한 파일 시스템 없습니다 : SFTP (0)	2019.10.08
[HADOOP] 스칼라은 돼지 프로젝션 사용할 수 있습니다 (0)	2019.10.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] 사용자 정의 이진 입력 - 하둡

사용자 정의 이진 입력 - 하둡

해결법

1.파일 형식을 모른 채 첫 번째 옵션은 더 나은 옵션이 될 것으로 보인다. 순서를 사용하면 더 나은 성능을 얻을 수 SequenceFile 관련 도구를 많이 활용할 수 있습니다 파일. 그러나이 방법 저를 염려 할 두 가지가있다.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역