복붙노트

[HADOOP] 의사 분산 번호 맵 및 작업 감소

HADOOP

의사 분산 번호 맵 및 작업 감소

하둡 초보자입니다. 의사 분산 모드에서 hadoop 설정을 성공적으로 구성했습니다. 이제 맵 수를 선택하고 작업을 줄이는 논리가 무엇인지 알고 싶습니다. 우리는 무엇을 말하는가?

감사

해결법

  1. ==============================

    1.매퍼 / 리듀서 수를 설정하는 방법을 일반화 할 수 없습니다.

    매퍼 / 리듀서 수를 설정하는 방법을 일반화 할 수 없습니다.

    매퍼 수 : 매퍼 수를 특정 수로 명시 적으로 설정할 수 없습니다 (설정할 매개 변수가 있지만 적용되지 않음). 이것은 주어진 입력 세트에 대해 hadoop에 의해 생성 된 입력 스플릿 수에 의해 결정됩니다. mapred.min.split.size 매개 변수를 설정하여이를 제어 할 수 있습니다. 자세한 내용은 여기에서 InputSplit 섹션을 읽으십시오. 대량의 작은 파일로 인해 많은 매퍼가 생성되고 매퍼 수를 줄이려면 둘 이상의 파일의 데이터를 결합해야합니다. 이것을 읽으십시오 : 입력 파일을 결합하여 단일 매퍼에 도달하고 매퍼 수를 제어하는 ​​방법.

    위키 페이지에서 인용하려면 :

    감속기 수 : 감속기 수를 명시 적으로 설정할 수 있습니다. mapred.reduce.tasks 매개 변수 만 설정하십시오. 이 수를 설정하기위한 지침이 있지만 일반적으로 기본 감속기 수는 충분해야합니다. 때때로 단일 보고서 파일이 필요한 경우이 경우 감속기 수를 1로 설정하려고 할 수 있습니다.

    위키에서 다시 인용하자면 :

  2. ==============================

    2.사실은 아니야 매퍼의 수는 주로 사용중인 InputFormat에 의해 생성 된 InputSplits 및 no. 아니오에 의하여 흡진기의. 맵 단계 후에 얻은 파티션 수 또한 사용 가능한 메모리와 함께 슬레이브 당 사용 가능한 슬롯 수를 염두에 두어야합니다. 그러나 일반적 으로이 방법을 사용할 수 있습니다.

    사실은 아니야 매퍼의 수는 주로 사용중인 InputFormat에 의해 생성 된 InputSplits 및 no. 아니오에 의하여 흡진기의. 맵 단계 후에 얻은 파티션 수 또한 사용 가능한 메모리와 함께 슬레이브 당 사용 가능한 슬롯 수를 염두에 두어야합니다. 그러나 일반적 으로이 방법을 사용할 수 있습니다.

    안 돼 가상 CPU * .75의 수 구성 할 수있는 슬롯. 예를 들어 12 개의 물리적 코어 (또는 24 개의 가상 코어)가있는 경우 (24 * .75) = 18 슬롯이됩니다. 이제 요구 사항에 따라 사용할 맵퍼 및 리듀서 수를 선택할 수 있습니다. MR 슬롯 18 개를 사용하면 매퍼 9 개와 감속기 9 개 또는 매퍼 12 개와 감속기 9 개 또는 원하는대로 구성 할 수 있습니다.

    HTH

  3. from https://stackoverflow.com/questions/16414664/pseudo-distributed-number-map-and-reduce-tasks by cc-by-sa and MIT license