[HADOOP] 부분 집계와 결합기 중 어느 것이 더 빠릅니까?
HADOOP부분 집계와 결합기 중 어느 것이 더 빠릅니까?
계단식 / 스케일링이 맵측 평가를 최적화하는 방법에 대한 알림이 있습니다. 소위 부분 집계를 사용합니다. 실제로 Combiners보다 나은 접근 방식입니까? 일반적인 hadoop 작업 (예 : 단어 수)에 대한 성능 비교가 있습니까? 그렇다면 weoop가 앞으로 이것을 지원할 것입니까?
해결법
-
==============================
1.실제로는 컴 바이 너를 사용하는 것보다 부분 집계의 이점이 더 많습니다.
실제로는 컴 바이 너를 사용하는 것보다 부분 집계의 이점이 더 많습니다.
결합기가 유용한 경우는 제한적입니다. 또한 컴 바이 너는 감소 수가 아닌 작업에 필요한 처리량을 최적화합니다. 이는 상당한 성능 델타를 추가하는 미묘한 차이입니다.
대규모 분산 워크 플로우에서 부분 집계에 대한 훨씬 광범위한 사용 사례가 있습니다. 또한 부분 집계를 사용하여 워크 플로에 필요한 작업 단계 수를 최적화 할 수 있습니다.
예는 https://github.com/Cascading/Impatient/wiki/Part-5에 나와 있으며 CountBy 및 SumBy 부분 집계를 사용합니다. 해당 프로젝트에 대한 GitHub의 코드 커밋 히스토리를 되돌아 보면 이전에 GroupBy 및 Count가 사용되어 더 줄어 듭니다.
-
==============================
2.특정 유형의 집계에는 더 좋습니다. 계단식 집계는 집계 할 수있는 것에 대해 좀 더 융통성이 있습니다. 계단식 사이트 (강조 광산)에서 :
특정 유형의 집계에는 더 좋습니다. 계단식 집계는 집계 할 수있는 것에 대해 좀 더 융통성이 있습니다. 계단식 사이트 (강조 광산)에서 :
from https://stackoverflow.com/questions/10925840/partial-aggregation-vs-combiners-which-one-faster by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 액션 북의 Mahout에서 예제를 실행하는 방법 (0) | 2019.08.09 |
---|---|
[HADOOP] Spark to Oozie 공유 라이브러리 추가 (0) | 2019.08.09 |
[HADOOP] 브라우저에서 HDFS 파일 열기 (0) | 2019.08.09 |
[HADOOP] Pyspark java.lang.OutOfMemoryError : 요청 된 배열 크기가 VM 한계를 초과합니다 (0) | 2019.08.09 |
[HADOOP] YARN Dr.who 응용 프로그램 시도 시도 실패 (0) | 2019.08.09 |