[HADOOP] 의사 분산 번호 맵 및 작업 감소
HADOOP의사 분산 번호 맵 및 작업 감소
하둡 초보자입니다. 의사 분산 모드에서 hadoop 설정을 성공적으로 구성했습니다. 이제 맵 수를 선택하고 작업을 줄이는 논리가 무엇인지 알고 싶습니다. 우리는 무엇을 말하는가?
감사
해결법
-
==============================
1.매퍼 / 리듀서 수를 설정하는 방법을 일반화 할 수 없습니다.
매퍼 / 리듀서 수를 설정하는 방법을 일반화 할 수 없습니다.
매퍼 수 : 매퍼 수를 특정 수로 명시 적으로 설정할 수 없습니다 (설정할 매개 변수가 있지만 적용되지 않음). 이것은 주어진 입력 세트에 대해 hadoop에 의해 생성 된 입력 스플릿 수에 의해 결정됩니다. mapred.min.split.size 매개 변수를 설정하여이를 제어 할 수 있습니다. 자세한 내용은 여기에서 InputSplit 섹션을 읽으십시오. 대량의 작은 파일로 인해 많은 매퍼가 생성되고 매퍼 수를 줄이려면 둘 이상의 파일의 데이터를 결합해야합니다. 이것을 읽으십시오 : 입력 파일을 결합하여 단일 매퍼에 도달하고 매퍼 수를 제어하는 방법.
위키 페이지에서 인용하려면 :
감속기 수 : 감속기 수를 명시 적으로 설정할 수 있습니다. mapred.reduce.tasks 매개 변수 만 설정하십시오. 이 수를 설정하기위한 지침이 있지만 일반적으로 기본 감속기 수는 충분해야합니다. 때때로 단일 보고서 파일이 필요한 경우이 경우 감속기 수를 1로 설정하려고 할 수 있습니다.
위키에서 다시 인용하자면 :
-
==============================
2.사실은 아니야 매퍼의 수는 주로 사용중인 InputFormat에 의해 생성 된 InputSplits 및 no. 아니오에 의하여 흡진기의. 맵 단계 후에 얻은 파티션 수 또한 사용 가능한 메모리와 함께 슬레이브 당 사용 가능한 슬롯 수를 염두에 두어야합니다. 그러나 일반적 으로이 방법을 사용할 수 있습니다.
사실은 아니야 매퍼의 수는 주로 사용중인 InputFormat에 의해 생성 된 InputSplits 및 no. 아니오에 의하여 흡진기의. 맵 단계 후에 얻은 파티션 수 또한 사용 가능한 메모리와 함께 슬레이브 당 사용 가능한 슬롯 수를 염두에 두어야합니다. 그러나 일반적 으로이 방법을 사용할 수 있습니다.
안 돼 가상 CPU * .75의 수 구성 할 수있는 슬롯. 예를 들어 12 개의 물리적 코어 (또는 24 개의 가상 코어)가있는 경우 (24 * .75) = 18 슬롯이됩니다. 이제 요구 사항에 따라 사용할 맵퍼 및 리듀서 수를 선택할 수 있습니다. MR 슬롯 18 개를 사용하면 매퍼 9 개와 감속기 9 개 또는 매퍼 12 개와 감속기 9 개 또는 원하는대로 구성 할 수 있습니다.
HTH
from https://stackoverflow.com/questions/16414664/pseudo-distributed-number-map-and-reduce-tasks by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Java 응용 프로그램 내에서 Pig 실행 (0) | 2019.08.12 |
---|---|
[HADOOP] Oozie Hive 액션이 멈추고 심장 박동이 영원히 (0) | 2019.08.12 |
[HADOOP] Hue / Oozie에서 인식 할 수없는 인수를 유발하는 Sqoop 자유 형식 쿼리 (0) | 2019.08.12 |
[HADOOP] Mapreduce 작업이 실행되고 예외가 있습니다. (0) | 2019.08.12 |
[HADOOP] “ADD JAR”을 사용하여 jar 파일을 추가하더라도 Hive 쉘에서 쿼리를 실행하는 동안 Filenotfound 예외가 발생 함 (0) | 2019.08.12 |