[HADOOP] 하둡 스트리밍 : 맵당 단일 파일 또는 다중 파일. 분할하지 마십시오
HADOOP하둡 스트리밍 : 맵당 단일 파일 또는 다중 파일. 분할하지 마십시오
C ++ 라이브러리에서 처리 해야하는 zip 파일이 많이 있습니다. 그래서 나는 C ++을 사용하여 hadoop 스트리밍 프로그램을 작성합니다. 프로그램은 zip 파일을 읽고 압축을 풀고 추출 된 데이터를 처리합니다. 내 문제는
해결법
-
==============================
1.여기에서 해결책을 찾을 수 있습니다.
여기에서 해결책을 찾을 수 있습니다.
http://wiki.apache.org/hadoop/FAQ#How_do_I_get_each_of_a_job.27s_maps_to_work_on_one_complete_input-file_and_not_allow_the_framework_to_split-up_the_files.3F
내가 제안하는 가장 쉬운 방법은 파일이 분할되지 않도록 mapred.min.split.size를 큰 값으로 설정하는 것입니다.
이것이 작동하지 않으면 수행하기 어려운 InputFormat을 구현해야하며 다음 단계를 찾을 수 있습니다. http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat
-
==============================
2.오히려 최소 분할 크기에 따라 더 쉬운 방법은 파일을 압축하는 것입니다.
오히려 최소 분할 크기에 따라 더 쉬운 방법은 파일을 압축하는 것입니다.
gzip을 사용하여 파일을 압축하는 방법이 있습니다
http://www.gzip.org/
Linux를 사용하는 경우 추출 된 데이터를 압축하여
gzip -r /path/to/data
이제이 데이터를 hadoop 스트리밍 작업의 입력으로 전달했습니다.
from https://stackoverflow.com/questions/14027594/hadoop-streaming-single-file-or-multi-file-per-map-dont-split by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하이브 날짜 / 타임 스탬프 열 (0) | 2019.08.16 |
---|---|
[HADOOP] Hdfs에서 CSV 파일을 읽는 방법은 무엇입니까? (0) | 2019.08.16 |
[HADOOP] Spark 통합 테스트를위한 Hive 구성 (0) | 2019.08.15 |
[HADOOP] 압축 출력 스케일링 / 캐스 케이 딩 Tsv (0) | 2019.08.15 |
[HADOOP] hadoop에서 시스템 속성을 맵 함수에 전달하는 방법 (0) | 2019.08.15 |