복붙노트

[HADOOP] MapReduce 작업 수

HADOOP

MapReduce 작업 수

내 응용 프로그램에서 올바른 수의 맵 및 축소 작업을 얻는 방법에 대한 도움이 필요합니다. 이 번호를 알아낼 방법이 있습니까?

감사

해결법

  1. ==============================

    1.실행 전에 작업 실패의 요인과 재시도 및 추론 적 실행 시도가 정확하게 결정될 수 없으므로 대략적인 수의 작업을 수행 할 수 있기 때문에 실제 맵 수를 가져 와서 실행하기 전에 애플리케이션의 작업을 줄일 수 없습니다. 파생되었습니다.

    실행 전에 작업 실패의 요인과 재시도 및 추론 적 실행 시도가 정확하게 결정될 수 없으므로 대략적인 수의 작업을 수행 할 수 있기 때문에 실제 맵 수를 가져 와서 실행하기 전에 애플리케이션의 작업을 줄일 수 없습니다. 파생되었습니다.

    MapReduce 작업에 대한 총 맵 태스크 수는 입력 파일 및 FileFormat에 따라 다릅니다. 각 입력 파일에 대해 분할이 계산되고 입력 분 할당 하나의 맵 태스크가 호출됩니다.

    분할 크기는 다음을 기준으로 계산됩니다.

    input_split_size = max(mapreduce.input.fileinputformat.split.minsize, min(mapreduce.input.fileinputformat.split.maxsize, dfs.blocksize))
    

    속성이

    총 맵 작업 수는 파일 당 입력 분할 수의 합과 같습니다. 총 축소 작업 수는 1 (기본값) 또는 mapreduce.job.reduces와 같습니다.

  2. ==============================

    2.매퍼 수는 HDFS의 파일 블록 크기 (기본값) 및 입력 분할 크기 (기본값 이외의 값을 지정하는 경우)에 따라 다릅니다.

    매퍼 수는 HDFS의 파일 블록 크기 (기본값) 및 입력 분할 크기 (기본값 이외의 값을 지정하는 경우)에 따라 다릅니다.

    128MB 파일이 있고 hdfs 블록 크기가 64MB라고 가정하면 기본 동작으로 인해 여러 맵 작업이 2가됩니다.

    입력 분할 크기가 32MB이지만 hdfs 블록 크기가 64MB 인 경우 해당 시간 작업 수는 4입니다. 따라서지도 작업은 위에 정의 된 세 가지 요소 모두에 따라 다릅니다.

  3. ==============================

    3.맵 작업 수는 작업 중 입력 분할 수와 같으며 그 중 하나를 찾아서 명시 적으로 설정할 수있는 매퍼 수와 감속기 수를 찾을 수 있습니다. 또한 맵 감소 작업을 실행하면 생성 된 로그를 관찰하여 작업의 매퍼 및 감속기 수를 찾을 수 있습니다.

    맵 작업 수는 작업 중 입력 분할 수와 같으며 그 중 하나를 찾아서 명시 적으로 설정할 수있는 매퍼 수와 감속기 수를 찾을 수 있습니다. 또한 맵 감소 작업을 실행하면 생성 된 로그를 관찰하여 작업의 매퍼 및 감속기 수를 찾을 수 있습니다.

  4. from https://stackoverflow.com/questions/42424642/number-of-mapreduce-tasks by cc-by-sa and MIT license