복붙노트

[HADOOP] 하둡 스트리밍 : 맵당 단일 파일 또는 다중 파일. 분할하지 마십시오

HADOOP

하둡 스트리밍 : 맵당 단일 파일 또는 다중 파일. 분할하지 마십시오

C ++ 라이브러리에서 처리 해야하는 zip 파일이 많이 있습니다. 그래서 나는 C ++을 사용하여 hadoop 스트리밍 프로그램을 작성합니다. 프로그램은 zip 파일을 읽고 압축을 풀고 추출 된 데이터를 처리합니다. 내 문제는

해결법

  1. ==============================

    1.여기에서 해결책을 찾을 수 있습니다.

    여기에서 해결책을 찾을 수 있습니다.

    http://wiki.apache.org/hadoop/FAQ#How_do_I_get_each_of_a_job.27s_maps_to_work_on_one_complete_input-file_and_not_allow_the_framework_to_split-up_the_files.3F

    내가 제안하는 가장 쉬운 방법은 파일이 분할되지 않도록 mapred.min.split.size를 큰 값으로 설정하는 것입니다.

    이것이 작동하지 않으면 수행하기 어려운 InputFormat을 구현해야하며 다음 단계를 찾을 수 있습니다. http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat

  2. ==============================

    2.오히려 최소 분할 크기에 따라 더 쉬운 방법은 파일을 압축하는 것입니다.

    오히려 최소 분할 크기에 따라 더 쉬운 방법은 파일을 압축하는 것입니다.

    gzip을 사용하여 파일을 압축하는 방법이 있습니다

    http://www.gzip.org/

    Linux를 사용하는 경우 추출 된 데이터를 압축하여

    gzip -r /path/to/data
    

    이제이 데이터를 hadoop 스트리밍 작업의 입력으로 전달했습니다.

  3. from https://stackoverflow.com/questions/14027594/hadoop-streaming-single-file-or-multi-file-per-map-dont-split by cc-by-sa and MIT license