복붙노트

[HADOOP] Hadoop 0.95 또는 1.75에서 적절한 수의 감소가있는 이유는 무엇입니까?

HADOOP

Hadoop 0.95 또는 1.75에서 적절한 수의 감소가있는 이유는 무엇입니까?

hadoop 문서는 다음과 같이 설명합니다.

이 값들은 꽤 일정합니까? 이 숫자들 사이의 값 또는 외부 값을 선택하면 어떤 결과가 나타 납니까?

해결법

  1. ==============================

    1.값은 상황에 따라 달라져야합니다. :)

    값은 상황에 따라 달라져야합니다. :)

    다음은 가치의 이점에 대한 나의 이해입니다.

    .95는 사용 가능한 축소 기의 최대 활용을 허용하는 것입니다. Hadoop이 단일 감속기로 기본 설정되어 있으면 감속이 분배되지 않아서 필요한 시간보다 오래 걸립니다. 제한된 경우에는 감속기의 증가와 시간 단축에 거의 선형으로 맞습니다. 1 감속기에서 16 분이 걸리는 경우 8 감속기에서 2 분이 소요됩니다.

    1.75는 노드의 시스템에서 성능 차이를 최적화하려고 시도하는 값입니다. 속도가 느린 기계는 추가 감속기를 사용하고 속도가 느린 기계는 그렇지 못하도록 감속기의 단일 패스 이상을 생성합니다. 이 그림 (1.75)은 .95 값보다 하드웨어에서 훨씬 더 많이 조정해야하는 값입니다. 1 대의 빠른 기계가 있고 3 대의 속도가 느린 경우 아마 1.10을 원할 것입니다. 이 숫자는 하드웨어 구성에 맞는 값을 찾으려면 더 많은 실험이 필요합니다. 감속기의 수가 너무 많으면 느린 기계가 다시 병목 현상이됩니다.

  2. ==============================

    2.Nija가 위에 말한 것을 추가하고 또한 약간의 개인적인 경험 :

    Nija가 위에 말한 것을 추가하고 또한 약간의 개인적인 경험 :

    0.95는 클러스터의 최대 용량을 활용하기 때문에 약간의 의미가 있지만, 동시에 일부 감속기가 실패 할 경우에 대비하여 빈 작업 슬롯을 고려해야합니다. 감축 작업 슬롯의 수를 1 배로 사용하는 경우 실패한 감속 량은 하나 이상의 감속기가 완료 될 때까지 대기해야합니다. 작업량 줄이기 슬롯의 0.85 또는 0.75를 사용하는 경우 가능한 한 많은 클러스터를 활용하지 않습니다.

  3. ==============================

    3.이 숫자는 더 이상 유효하지 않다고 말할 수 있습니다. 이제 "Hadoop : definitive guide"라는 책과 hadoop wiki에 따르면 감속기가 5 분 동안 처리해야한다는 것을 알려줍니다.

    이 숫자는 더 이상 유효하지 않다고 말할 수 있습니다. 이제 "Hadoop : definitive guide"라는 책과 hadoop wiki에 따르면 감속기가 5 분 동안 처리해야한다는 것을 알려줍니다.

    책에서 단편 :

  4. from https://stackoverflow.com/questions/7247059/why-is-the-right-number-of-reduces-in-hadoop-0-95-or-1-75 by cc-by-sa and MIT license