버킷으로 연결된 테이블의 전체 데이터를 검색하는 하이브

나는 하나의 열에 데이터를 버켓 팅하여 하이브 SQL을 최적화하려고 시도했다. 다음 진술로 테이블을 만들었습니다.

CREATE TABLE `source_bckt`(
  `uk` string, 
  `data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS

그런 다음 "set hive.enforce.bucketing = true;"를 실행 한 후 데이터를 삽입하십시오.

다음을 선택하면 "select * from source_bckt where uk = '1179724';" 데이터가 다음 방정식 HASH ( '1179724') % 10에 의해 식별 될 수있는 단일 파일에 있다고 가정해도 맵 생성은 전체 파일 집합을 통해 검색을 생성합니다.

어떤 생각?

해결법

==============================
1.이 최적화는 아직 지원되지 않습니다. 현재 JIRA 티켓 상태는 PATCH AVAILABLE입니다.

이 최적화는 아직 지원되지 않습니다. 현재 JIRA 티켓 상태는 PATCH AVAILABLE입니다.

https://issues.apache.org/jira/browse/HIVE-5831

from https://stackoverflow.com/questions/43608422/hive-scanning-entire-data-for-bucketed-table by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] HIVE에서 날짜를 빼는 방법 (0)	2019.08.02
[HADOOP] Hadoop WordCount 예제 - Hadoop (Eclipse) 옵션 실행시 프롬프트가 나타나지 않습니다. 창에서 실행할 Hadoop 서버 선택 (0)	2019.08.02
[HADOOP] pyspark에서 hdfs 블록 크기를 변경하는 방법은 무엇입니까? (0)	2019.08.02
[HADOOP] RJDBC / RHive를 사용하여 R에서 원격 하이브 서버에 연결 (0)	2019.08.02
[HADOOP] 데이터 소스로 HBase를 사용하여 문서의 TF-IDF를 계산합니다. (0)	2019.08.02

복붙노트

[HADOOP] 버킷으로 연결된 테이블의 전체 데이터를 검색하는 하이브

버킷으로 연결된 테이블의 전체 데이터를 검색하는 하이브

해결법

1.이 최적화는 아직 지원되지 않습니다. 현재 JIRA 티켓 상태는 PATCH AVAILABLE입니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바