[HADOOP] MapReduce 작업 수
HADOOPMapReduce 작업 수
내 응용 프로그램에서 올바른 수의 맵 및 축소 작업을 얻는 방법에 대한 도움이 필요합니다. 이 번호를 알아낼 방법이 있습니까?
감사
해결법
-
==============================
1.실행 전에 작업 실패의 요인과 재시도 및 추론 적 실행 시도가 정확하게 결정될 수 없으므로 대략적인 수의 작업을 수행 할 수 있기 때문에 실제 맵 수를 가져 와서 실행하기 전에 애플리케이션의 작업을 줄일 수 없습니다. 파생되었습니다.
실행 전에 작업 실패의 요인과 재시도 및 추론 적 실행 시도가 정확하게 결정될 수 없으므로 대략적인 수의 작업을 수행 할 수 있기 때문에 실제 맵 수를 가져 와서 실행하기 전에 애플리케이션의 작업을 줄일 수 없습니다. 파생되었습니다.
MapReduce 작업에 대한 총 맵 태스크 수는 입력 파일 및 FileFormat에 따라 다릅니다. 각 입력 파일에 대해 분할이 계산되고 입력 분 할당 하나의 맵 태스크가 호출됩니다.
분할 크기는 다음을 기준으로 계산됩니다.
input_split_size = max(mapreduce.input.fileinputformat.split.minsize, min(mapreduce.input.fileinputformat.split.maxsize, dfs.blocksize))
속성이
총 맵 작업 수는 파일 당 입력 분할 수의 합과 같습니다. 총 축소 작업 수는 1 (기본값) 또는 mapreduce.job.reduces와 같습니다.
-
==============================
2.매퍼 수는 HDFS의 파일 블록 크기 (기본값) 및 입력 분할 크기 (기본값 이외의 값을 지정하는 경우)에 따라 다릅니다.
매퍼 수는 HDFS의 파일 블록 크기 (기본값) 및 입력 분할 크기 (기본값 이외의 값을 지정하는 경우)에 따라 다릅니다.
128MB 파일이 있고 hdfs 블록 크기가 64MB라고 가정하면 기본 동작으로 인해 여러 맵 작업이 2가됩니다.
입력 분할 크기가 32MB이지만 hdfs 블록 크기가 64MB 인 경우 해당 시간 작업 수는 4입니다. 따라서지도 작업은 위에 정의 된 세 가지 요소 모두에 따라 다릅니다.
-
==============================
3.맵 작업 수는 작업 중 입력 분할 수와 같으며 그 중 하나를 찾아서 명시 적으로 설정할 수있는 매퍼 수와 감속기 수를 찾을 수 있습니다. 또한 맵 감소 작업을 실행하면 생성 된 로그를 관찰하여 작업의 매퍼 및 감속기 수를 찾을 수 있습니다.
맵 작업 수는 작업 중 입력 분할 수와 같으며 그 중 하나를 찾아서 명시 적으로 설정할 수있는 매퍼 수와 감속기 수를 찾을 수 있습니다. 또한 맵 감소 작업을 실행하면 생성 된 로그를 관찰하여 작업의 매퍼 및 감속기 수를 찾을 수 있습니다.
from https://stackoverflow.com/questions/42424642/number-of-mapreduce-tasks by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 분산 캐시 hadoop을 통해 jar 추가 (0) | 2019.08.15 |
---|---|
[HADOOP] MapReduce 중 디스크 유출 (0) | 2019.08.15 |
[HADOOP] 압축 파일을 입력으로하여 hadoop을 실행 중입니다. hadoop이 읽은 데이터 입력 순서가 맞지 않습니다. 숫자 형식 예외 (0) | 2019.08.15 |
[HADOOP] hadoop Map reduce를 사용하여 .pst를 처리 / 추출하는 방법 (0) | 2019.08.15 |
[HADOOP] 맵 감소 작업의 출력을 텍스트 파일로 로깅 (0) | 2019.08.15 |