복붙노트

[HADOOP] 부분 집계와 결합기 중 어느 것이 더 빠릅니까?

HADOOP

부분 집계와 결합기 중 어느 것이 더 빠릅니까?

계단식 / 스케일링이 맵측 평가를 최적화하는 방법에 대한 알림이 있습니다. 소위 부분 집계를 사용합니다. 실제로 Combiners보다 나은 접근 방식입니까? 일반적인 hadoop 작업 (예 : 단어 수)에 대한 성능 비교가 있습니까? 그렇다면 weoop가 앞으로 이것을 지원할 것입니까?

해결법

  1. ==============================

    1.실제로는 컴 바이 너를 사용하는 것보다 부분 집계의 이점이 더 많습니다.

    실제로는 컴 바이 너를 사용하는 것보다 부분 집계의 이점이 더 많습니다.

    결합기가 유용한 경우는 제한적입니다. 또한 컴 바이 너는 감소 수가 아닌 작업에 필요한 처리량을 최적화합니다. 이는 상당한 성능 델타를 추가하는 미묘한 차이입니다.

    대규모 분산 워크 플로우에서 부분 집계에 대한 훨씬 광범위한 사용 사례가 있습니다. 또한 부분 집계를 사용하여 워크 플로에 필요한 작업 단계 수를 최적화 할 수 있습니다.

    예는 https://github.com/Cascading/Impatient/wiki/Part-5에 나와 있으며 CountBy 및 SumBy 부분 집계를 사용합니다. 해당 프로젝트에 대한 GitHub의 코드 커밋 히스토리를 되돌아 보면 이전에 GroupBy 및 Count가 사용되어 더 줄어 듭니다.

  2. ==============================

    2.특정 유형의 집계에는 더 좋습니다. 계단식 집계는 집계 할 수있는 것에 대해 좀 더 융통성이 있습니다. 계단식 사이트 (강조 광산)에서 :

    특정 유형의 집계에는 더 좋습니다. 계단식 집계는 집계 할 수있는 것에 대해 좀 더 융통성이 있습니다. 계단식 사이트 (강조 광산)에서 :

  3. from https://stackoverflow.com/questions/10925840/partial-aggregation-vs-combiners-which-one-faster by cc-by-sa and MIT license