복붙노트

[HADOOP] 버킷과 인덱싱의 차이 (Hive (Bigdata))

HADOOP

버킷과 인덱싱의 차이 (Hive (Bigdata))

Hive에서 테이블 버킷 팅과 인덱싱의 주요 차이점은 무엇입니까?

해결법

  1. ==============================

    1.주요 차이점은 목표입니다.

    주요 차이점은 목표입니다.

    테이블이 매우 커지면 인덱스가 더욱 중요 해지고, 지금도 알다시피, Hive는 큰 테이블에서 번성합니다.

    특정 '키'또는 'id'로 레코드를 버킷 팅하여 조인을 최적화 할 수 있기 때문에 일반적으로 조인 작업에 사용됩니다. 이러한 방식으로 조인 작업을 수행하려는 경우 동일한 '키'를 가진 레코드가 동일한 버킷에있게되고 조인 작업이 더 빨라집니다. 이를 데이터 세트를보다 관리하기 쉬운 부분으로 분해하는 기술과 같이 볼 수 있습니다. 이 링크는 효율적인 Hive 쿼리를위한 5 가지 팁을 제공하며 그 중 하나는 버킷 팅에 관한 것입니다.

  2. from https://stackoverflow.com/questions/30818447/hivebigdata-difference-between-bucketing-and-indexing by cc-by-sa and MIT license