[HADOOP] 하이브에서 Cluster By와 CLUSTERED BY의 차이점은 무엇입니까?
HADOOP하이브에서 Cluster By와 CLUSTERED BY의 차이점은 무엇입니까?
하이브에서 Cluster By와 CLUSTERED BY의 주요 차이점이 무엇인지 알고 싶습니다.
클러스터 테이블 버킷에 사용됩니다. 그리고 해시 기능을 사용합니다.
CLUSTERED BY는 감속기에서 값으로 주문하는 데 사용됩니다.
다른 차이점이 있습니까?
알려주세요
감사
벤 카타 발라.
해결법
-
==============================
1."clustered by"는 키를 다른 버킷으로 만 분배하고 "cluster by"는 각 N 리듀서가 겹치지 않는 범위를 확보 한 다음 리듀서에서 해당 범위를 기준으로 정렬합니다. 가장 큰 차이점은 정렬에 관한 것입니다.
"clustered by"는 키를 다른 버킷으로 만 분배하고 "cluster by"는 각 N 리듀서가 겹치지 않는 범위를 확보 한 다음 리듀서에서 해당 범위를 기준으로 정렬합니다. 가장 큰 차이점은 정렬에 관한 것입니다.
-
==============================
2.DDL에서 (CREATE 문)-과거 형식은 (파티션 기준, 클러스터 기준, 분산 기준, 정렬 기준)과 같이 사용됩니다.
DDL에서 (CREATE 문)-과거 형식은 (파티션 기준, 클러스터 기준, 분산 기준, 정렬 기준)과 같이 사용됩니다.
DML (예 : SELECT 문)-현재 형식은 (파티션 기준, 클러스터 기준, 배포 기준, 정렬 기준)
이것이 유일한 차이점입니다. 정렬 / 버킷 복잡성을 혼합하지 마십시오.
클러스터링 기준, 분산 기준 및 정렬 기준의 차이점을 이해하려면 다음 링크를 참조하십시오. 클러스터 기준 vs 순서 기준 vs 정렬 기준
from https://stackoverflow.com/questions/34495981/difference-between-cluster-by-and-clustered-by-in-hive by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] HDFS를 지운 후에도 여전히 사용 된 블록 풀을 표시하는 일부 데이터 노드 (0) | 2019.09.14 |
---|---|
[HADOOP] Spark에서 RDD의 복제 팩터를 변경하는 방법이 있습니까? (0) | 2019.09.14 |
[HADOOP] 메인 클래스 org.apache.nutch.crawl.InjectorJob을 찾거나로드 할 수 있음 (0) | 2019.09.14 |
[HADOOP] 둘 이상의 열에 의해 클러스터 된 (0) | 2019.09.14 |
[HADOOP] Impala SQL에 While 루프를 작성 하시겠습니까? (0) | 2019.09.14 |