복붙노트

[HADOOP] Hadoop의 이상적인 리듀서 수는 무엇입니까?

HADOOP

Hadoop의 이상적인 리듀서 수는 무엇입니까?

감속기의 이상적인 수를 계산하기 위해 Hadoop 위키에서 주어진대로 0.95 또는 1.75 * (nodes * mapred.tasktracker.tasks.maximum)입니다.

언제 0.95를 선택해야하고 언제 1.75? 이 배율을 결정할 때 고려해야 할 요인은 무엇입니까?

해결법

  1. ==============================

    1.클러스터에서 100 개의 슬롯을 줄일 수 있다고 가정 해 봅시다.

    클러스터에서 100 개의 슬롯을 줄일 수 있다고 가정 해 봅시다.

    로드 계수 0.95를 사용하면 모든 작업에 사용할 수있는 슬롯을 충분히 줄일 수 있기 때문에 모든 95 개의 축소 작업이 동시에 시작됩니다. 이는 나머지 작업 중 하나가 완료 될 때까지 대기열에서 대기 할 작업이 없음을 의미합니다. 축소 작업이 "작다", 즉 비교적 빨리 끝나거나 모두 같은 시간을 필요로하는 경우이 옵션을 권합니다.

    반면로드 계수가 1.75 인 경우 100 줄의 축소 작업이 사용 가능한 축소 슬롯의 수만큼 동시에 시작되고 나머지 75 줄은 감소 된 슬롯을 사용할 수있을 때까지 대기열에서 대기합니다. 일부 작업이 다른 작업보다 "무겁다", 즉 더 많은 시간을 필요로하는 경우 작업을 병목 처리하지 않고 다른 작업 공간을 줄이거 나 기다리지 않고 작업 병목이되지 않으므로 더 나은 부하 분산이 가능합니다. 대기열에서 작업을 실행하고 있어야합니다. 또한지도 출력의 데이터가 더 많은 작업으로 분산되므로 각 축소 작업의로드가 줄어 듭니다.

    의견을 표현할 수 있다면 이러한 요소가 항상 이상적인지 확신 할 수 없습니다. 종종 Big Data를 다루기 때문에 1.75보다 큰 인수 (때로는 4 또는 5)를 사용하고,이 요소를 높게 설정하고로드 균형 조정을 더 좋게 설정하지 않으면 데이터가 각 시스템에 적합하지 않습니다.

  2. from https://stackoverflow.com/questions/21980110/what-is-ideal-number-of-reducers-on-hadoop by cc-by-sa and MIT license