복붙노트

[HADOOP] 버킷으로 연결된 테이블의 전체 데이터를 검색하는 하이브

HADOOP

버킷으로 연결된 테이블의 전체 데이터를 검색하는 하이브

나는 하나의 열에 데이터를 버켓 팅하여 하이브 SQL을 최적화하려고 시도했다. 다음 진술로 테이블을 만들었습니다.

CREATE TABLE `source_bckt`(
  `uk` string, 
  `data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS

그런 다음 "set hive.enforce.bucketing = true;"를 실행 한 후 데이터를 삽입하십시오.

다음을 선택하면 "select * from source_bckt where uk = '1179724';" 데이터가 다음 방정식 HASH ( '1179724') % 10에 의해 식별 될 수있는 단일 파일에 있다고 가정해도 맵 생성은 전체 파일 집합을 통해 검색을 생성합니다.

어떤 생각?

해결법

  1. ==============================

    1.이 최적화는 아직 지원되지 않습니다. 현재 JIRA 티켓 상태는 PATCH AVAILABLE입니다.

    이 최적화는 아직 지원되지 않습니다. 현재 JIRA 티켓 상태는 PATCH AVAILABLE입니다.

    https://issues.apache.org/jira/browse/HIVE-5831

  2. from https://stackoverflow.com/questions/43608422/hive-scanning-entire-data-for-bucketed-table by cc-by-sa and MIT license