의사 분산 번호 맵 및 작업 감소

하둡 초보자입니다. 의사 분산 모드에서 hadoop 설정을 성공적으로 구성했습니다. 이제 맵 수를 선택하고 작업을 줄이는 논리가 무엇인지 알고 싶습니다. 우리는 무엇을 말하는가?

감사

해결법

==============================
1.매퍼 / 리듀서 수를 설정하는 방법을 일반화 할 수 없습니다.

매퍼 / 리듀서 수를 설정하는 방법을 일반화 할 수 없습니다.

매퍼 수 : 매퍼 수를 특정 수로 명시 적으로 설정할 수 없습니다 (설정할 매개 변수가 있지만 적용되지 않음). 이것은 주어진 입력 세트에 대해 hadoop에 의해 생성 된 입력 스플릿 수에 의해 결정됩니다. mapred.min.split.size 매개 변수를 설정하여이를 제어 할 수 있습니다. 자세한 내용은 여기에서 InputSplit 섹션을 읽으십시오. 대량의 작은 파일로 인해 많은 매퍼가 생성되고 매퍼 수를 줄이려면 둘 이상의 파일의 데이터를 결합해야합니다. 이것을 읽으십시오 : 입력 파일을 결합하여 단일 매퍼에 도달하고 매퍼 수를 제어하는 방법.

위키 페이지에서 인용하려면 :

감속기 수 : 감속기 수를 명시 적으로 설정할 수 있습니다. mapred.reduce.tasks 매개 변수 만 설정하십시오. 이 수를 설정하기위한 지침이 있지만 일반적으로 기본 감속기 수는 충분해야합니다. 때때로 단일 보고서 파일이 필요한 경우이 경우 감속기 수를 1로 설정하려고 할 수 있습니다.

위키에서 다시 인용하자면 :
==============================
2.사실은 아니야 매퍼의 수는 주로 사용중인 InputFormat에 의해 생성 된 InputSplits 및 no. 아니오에 의하여 흡진기의. 맵 단계 후에 얻은 파티션 수 또한 사용 가능한 메모리와 함께 슬레이브 당 사용 가능한 슬롯 수를 염두에 두어야합니다. 그러나 일반적 으로이 방법을 사용할 수 있습니다.

사실은 아니야 매퍼의 수는 주로 사용중인 InputFormat에 의해 생성 된 InputSplits 및 no. 아니오에 의하여 흡진기의. 맵 단계 후에 얻은 파티션 수 또한 사용 가능한 메모리와 함께 슬레이브 당 사용 가능한 슬롯 수를 염두에 두어야합니다. 그러나 일반적 으로이 방법을 사용할 수 있습니다.

안 돼 가상 CPU * .75의 수 구성 할 수있는 슬롯. 예를 들어 12 개의 물리적 코어 (또는 24 개의 가상 코어)가있는 경우 (24 * .75) = 18 슬롯이됩니다. 이제 요구 사항에 따라 사용할 맵퍼 및 리듀서 수를 선택할 수 있습니다. MR 슬롯 18 개를 사용하면 매퍼 9 개와 감속기 9 개 또는 매퍼 12 개와 감속기 9 개 또는 원하는대로 구성 할 수 있습니다.

HTH

from https://stackoverflow.com/questions/16414664/pseudo-distributed-number-map-and-reduce-tasks by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] Java 응용 프로그램 내에서 Pig 실행 (0)	2019.08.12
[HADOOP] Oozie Hive 액션이 멈추고 심장 박동이 영원히 (0)	2019.08.12
[HADOOP] Hue / Oozie에서 인식 할 수없는 인수를 유발하는 Sqoop 자유 형식 쿼리 (0)	2019.08.12
[HADOOP] Mapreduce 작업이 실행되고 예외가 있습니다. (0)	2019.08.12
[HADOOP] “ADD JAR”을 사용하여 jar 파일을 추가하더라도 Hive 쉘에서 쿼리를 실행하는 동안 Filenotfound 예외가 발생 함 (0)	2019.08.12

복붙노트

[HADOOP] 의사 분산 번호 맵 및 작업 감소

의사 분산 번호 맵 및 작업 감소

해결법

1.매퍼 / 리듀서 수를 설정하는 방법을 일반화 할 수 없습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바