[HADOOP] hadoop의 부분 정렬, 전체 정렬 및 2 차 정렬 간의 차이점
HADOOPhadoop의 부분 정렬, 전체 정렬 및 2 차 정렬 간의 차이점
나에게 hadoop의 부분 정렬, 전체 정렬 및 2 차 정렬의 차이점을 알려주십시오.
해결법
-
==============================
1.부분 정렬 : -
부분 정렬 : -
감속기 출력은 각각 자체적으로 키를 기준으로 정렬되는 많은 파일입니다.
총 정렬 :
감속기 출력은 키를 기반으로 정렬 된 모든 출력을 갖는 단일 파일입니다.
보조 정렬 :
이 경우 키와 함께 값의 순서를 제어 할 수 있습니다. 정렬은 둘 이상의 필드 값에서 수행 할 수 있습니다.
-
==============================
2.부분 정렬 :
부분 정렬 :
N 개의 Mappers는 단순히 N 개의 파일을 생성합니다. N 개의 감속기가이 파일들을 개별적으로 정렬합니다.
총 정렬
특정 키의 모든 키 값 쌍은 특정 감속기에 도달합니다. 이것은 Mapper 레벨의 Partitioners를 통해 발생합니다. 매퍼 수준의 Combiners는 Semi reducers로 작동하고 특정 키의 값을 Reducer로 보냅니다.
감속기 출력은 키를 기반으로 정렬 된 모든 출력을 갖는 단일 파일입니다.
보조 정렬
지도 출력 키의 정렬 방법을 정의하는 데 사용됩니다. 매퍼 레벨에서 작동합니다. 이 경우 키와 함께 값의 순서를 제어 할 수 있습니다. 정렬은 둘 이상의 필드 값에서 수행 할 수 있습니다.
article1과 article2 및 article3을 살펴보십시오.
from https://stackoverflow.com/questions/33298159/difference-between-partial-sort-total-sort-and-secondary-sort-in-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] MapReduce WordCount 프로그램 - 출력이 입력 파일과 동일합니다. (0) | 2019.08.01 |
---|---|
[HADOOP] CDH4 jar 파일에서 Hadoop Eclipse 라이브러리 빌드 (0) | 2019.08.01 |
[HADOOP] 하둡 kerberos 티켓 자동 갱신 (0) | 2019.08.01 |
[HADOOP] Spark 독립 실행 형 클러스터가있는 작업자 노드에서 다중 실행 프로그램을 관리하는 방법은 무엇입니까? (0) | 2019.08.01 |
[HADOOP] Hadoop, MapReduce 사용자 정의 Java 카운터 스레드 "main"의 예외 java.lang.IllegalStateException : RUNNING 대신 DEFINE 상태의 작업 (0) | 2019.08.01 |