복붙노트

[HADOOP] 하이브에서 Cluster By와 CLUSTERED BY의 차이점은 무엇입니까?

HADOOP

하이브에서 Cluster By와 CLUSTERED BY의 차이점은 무엇입니까?

하이브에서 Cluster By와 CLUSTERED BY의 주요 차이점이 무엇인지 알고 싶습니다.

클러스터 테이블 버킷에 사용됩니다. 그리고 해시 기능을 사용합니다.

CLUSTERED BY는 감속기에서 값으로 주문하는 데 사용됩니다.

다른 차이점이 있습니까?

알려주세요

감사

벤 카타 발라.

해결법

  1. ==============================

    1."clustered by"는 키를 다른 버킷으로 만 분배하고 "cluster by"는 각 N 리듀서가 겹치지 않는 범위를 확보 한 다음 리듀서에서 해당 범위를 기준으로 정렬합니다. 가장 큰 차이점은 정렬에 관한 것입니다.

    "clustered by"는 키를 다른 버킷으로 만 분배하고 "cluster by"는 각 N 리듀서가 겹치지 않는 범위를 확보 한 다음 리듀서에서 해당 범위를 기준으로 정렬합니다. 가장 큰 차이점은 정렬에 관한 것입니다.

  2. ==============================

    2.DDL에서 (CREATE 문)-과거 형식은 (파티션 기준, 클러스터 기준, 분산 기준, 정렬 기준)과 같이 사용됩니다.

    DDL에서 (CREATE 문)-과거 형식은 (파티션 기준, 클러스터 기준, 분산 기준, 정렬 기준)과 같이 사용됩니다.

    DML (예 : SELECT 문)-현재 형식은 (파티션 기준, 클러스터 기준, 배포 기준, 정렬 기준)

    이것이 유일한 차이점입니다. 정렬 / 버킷 복잡성을 혼합하지 마십시오.

    클러스터링 기준, 분산 기준 및 정렬 기준의 차이점을 이해하려면 다음 링크를 참조하십시오. 클러스터 기준 vs 순서 기준 vs 정렬 기준

  3. from https://stackoverflow.com/questions/34495981/difference-between-cluster-by-and-clustered-by-in-hive by cc-by-sa and MIT license