[HADOOP] 버킷으로 연결된 테이블의 전체 데이터를 검색하는 하이브
HADOOP버킷으로 연결된 테이블의 전체 데이터를 검색하는 하이브
나는 하나의 열에 데이터를 버켓 팅하여 하이브 SQL을 최적화하려고 시도했다. 다음 진술로 테이블을 만들었습니다.
CREATE TABLE `source_bckt`(
`uk` string,
`data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS
그런 다음 "set hive.enforce.bucketing = true;"를 실행 한 후 데이터를 삽입하십시오.
다음을 선택하면 "select * from source_bckt where uk = '1179724';" 데이터가 다음 방정식 HASH ( '1179724') % 10에 의해 식별 될 수있는 단일 파일에 있다고 가정해도 맵 생성은 전체 파일 집합을 통해 검색을 생성합니다.
어떤 생각?
해결법
-
==============================
1.이 최적화는 아직 지원되지 않습니다. 현재 JIRA 티켓 상태는 PATCH AVAILABLE입니다.
이 최적화는 아직 지원되지 않습니다. 현재 JIRA 티켓 상태는 PATCH AVAILABLE입니다.
https://issues.apache.org/jira/browse/HIVE-5831
from https://stackoverflow.com/questions/43608422/hive-scanning-entire-data-for-bucketed-table by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] HIVE에서 날짜를 빼는 방법 (0) | 2019.08.02 |
---|---|
[HADOOP] Hadoop WordCount 예제 - Hadoop (Eclipse) 옵션 실행시 프롬프트가 나타나지 않습니다. 창에서 실행할 Hadoop 서버 선택 (0) | 2019.08.02 |
[HADOOP] pyspark에서 hdfs 블록 크기를 변경하는 방법은 무엇입니까? (0) | 2019.08.02 |
[HADOOP] RJDBC / RHive를 사용하여 R에서 원격 하이브 서버에 연결 (0) | 2019.08.02 |
[HADOOP] 데이터 소스로 HBase를 사용하여 문서의 TF-IDF를 계산합니다. (0) | 2019.08.02 |