[HADOOP] 하둡 스트리밍 : 맵당 단일 파일 또는 다중 파일. 분할하지 마십시오

2019. 8. 15. 23:25

cnpnote

HADOOP

하둡 스트리밍 : 맵당 단일 파일 또는 다중 파일. 분할하지 마십시오

C ++ 라이브러리에서 처리 해야하는 zip 파일이 많이 있습니다. 그래서 나는 C ++을 사용하여 hadoop 스트리밍 프로그램을 작성합니다. 프로그램은 zip 파일을 읽고 압축을 풀고 추출 된 데이터를 처리합니다. 내 문제는

해결법

==============================
1.여기에서 해결책을 찾을 수 있습니다.

여기에서 해결책을 찾을 수 있습니다.

http://wiki.apache.org/hadoop/FAQ#How_do_I_get_each_of_a_job.27s_maps_to_work_on_one_complete_input-file_and_not_allow_the_framework_to_split-up_the_files.3F

내가 제안하는 가장 쉬운 방법은 파일이 분할되지 않도록 mapred.min.split.size를 큰 값으로 설정하는 것입니다.

이것이 작동하지 않으면 수행하기 어려운 InputFormat을 구현해야하며 다음 단계를 찾을 수 있습니다. http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat
==============================
2.오히려 최소 분할 크기에 따라 더 쉬운 방법은 파일을 압축하는 것입니다.

오히려 최소 분할 크기에 따라 더 쉬운 방법은 파일을 압축하는 것입니다.

gzip을 사용하여 파일을 압축하는 방법이 있습니다

http://www.gzip.org/

Linux를 사용하는 경우 추출 된 데이터를 압축하여
```
gzip -r /path/to/data
```
이제이 데이터를 hadoop 스트리밍 작업의 입력으로 전달했습니다.

from https://stackoverflow.com/questions/14027594/hadoop-streaming-single-file-or-multi-file-per-map-dont-split by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 하이브 날짜 / 타임 스탬프 열 (0)	2019.08.16
[HADOOP] Hdfs에서 CSV 파일을 읽는 방법은 무엇입니까? (0)	2019.08.16
[HADOOP] Spark 통합 테스트를위한 Hive 구성 (0)	2019.08.15
[HADOOP] 압축 출력 스케일링 / 캐스 케이 딩 Tsv (0)	2019.08.15
[HADOOP] hadoop에서 시스템 속성을 맵 함수에 전달하는 방법 (0)	2019.08.15

,

티스토리툴바