[HADOOP] 지도 뒤섞기를위한 셔플 및 정렬
HADOOP지도 뒤섞기를위한 셔플 및 정렬
나는 결정적인 가이드와 여기에 하나를 포함하여 웹상의 다른 링크를 읽었습니다.
내 질문은
나의 이해에 따라, 그들은 매퍼와 감속기에서 발생합니다. 그러나 일부 링크는 매퍼 (muffers)에서 일어나고 감속기에서 정렬된다는 것을 언급합니다.
내 이해가 올바른지 누군가가 확인할 수 있습니까? 그렇지 않다면 추가 문서를 제공 할 수 있습니까?
해결법
-
==============================
1.혼합:
혼합:
MapReduce는 모든 감속기에 대한 입력이 키순으로 정렬되도록 보장합니다. 시스템이 정렬을 수행하고지도 출력을 입력으로 감속기로 전송하는 프로세스를 셔플이라고합니다.
종류:
정렬은 MapReduce 프로그램의 다양한 단계에서 발생하므로 Map 및 Reduce 단계에 존재할 수 있습니다.
이 다이어그램을 보아주세요.
Map 및 Reduce 단계에서 위 이미지에 설명 추가.
지도 측면 :
맵 기능이 출력을 생성하기 시작하면 단순히 디스크에 기록되지 않습니다. 맵 출력이 디스크에 기록되기 전에 스레드는 먼저 데이터를 최종적으로 전송할 감속기에 해당하는 파티션으로 분할합니다. 각 파티션 내에서 백그라운드 스레드는 키로 메모리 내 정렬을 수행합니다.
The Reduce Side :
모든 맵 출력이 복사되면 reduce 작업이 정렬 단계로 이동합니다 (정렬 단계는 맵 측면에서 정렬이 수행됨에 따라 병합 단계라고 적절히 지정해야 함). 이렇게하면 맵 출력이 병합되어 정렬 순서가 유지됩니다. 이것은 라운드에서 수행됩니다.
출처 : Hadoop Definitive Guide.
from https://stackoverflow.com/questions/39562643/shuffle-and-sort-for-mapreduce by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 값을 사용하여 스파크 결과 내림차순 튜플을 정렬하는 법 (0) | 2019.06.22 |
---|---|
[HADOOP] 어떻게 hadoop 순차 파일을 읽는가? (0) | 2019.06.22 |
[HADOOP] 하이브 쿼리가있는 Hadoop의 연속 레코드 간의 차이점 계산 (0) | 2019.06.22 |
[HADOOP] Hive를 사용하여 날짜 차이를 몇 분 만에 얻는 방법 (0) | 2019.06.22 |
[HADOOP] 자바에서 hdfs 폴더 삭제 (0) | 2019.06.22 |