[HADOOP] 하이브 테이블에서 데이터 비뚤림을 식별하거나 감지하는 방법이 있습니까?
HADOOP하이브 테이블에서 데이터 비뚤림을 식별하거나 감지하는 방법이 있습니까?
우리에게는 많은 시간이 걸리는 많은 하이브 쿼리가 있습니다. 우리는 tez 및 CBO와 같은 다른 우수 사례를 사용하고 있으며 orc 파일 등을 사용하고 있습니다.
몇 가지 명령처럼 데이터 왜곡을 검사 / 분석하는 방법이 있습니까? 설명 계획이 도움이 될까요? 그렇다면 어떤 매개 변수를 찾아야합니까?
해결법
-
==============================
1.설명 계획이 도움이되지 않습니다, 당신은 데이터를 확인해야합니다. 조인 인 경우 조인과 관련된 모든 테이블에서 상위 100 조인 키 값을 선택하고 분석 함수 인 경우 키별로 파티션에 대해 동일한 작업을 수행하고 비뚤어진 키인지 확인합니다.
설명 계획이 도움이되지 않습니다, 당신은 데이터를 확인해야합니다. 조인 인 경우 조인과 관련된 모든 테이블에서 상위 100 조인 키 값을 선택하고 분석 함수 인 경우 키별로 파티션에 대해 동일한 작업을 수행하고 비뚤어진 키인지 확인합니다.
예:
select key, count(*) cnt from table group by key having count(*)> 1000 --check also >1 for tables where it should not be duplication (like dimentions) order by cnt desc limit 100;
키는 복잡한 조인 키 (조인 ON 조건에서 사용중인 모든 열) 일 수 있습니다.
또한이 답변을 살펴보십시오. https://stackoverflow.com/a/51061613/2700344
from https://stackoverflow.com/questions/53332761/is-there-a-way-to-identify-or-detect-data-skew-in-hive-table by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hiveql에서 열을 행으로 변환 (UNPIVOT) (0) | 2019.07.20 |
---|---|
[HADOOP] 수백만 개의 작은 XML 파일 구문 분석 (0) | 2019.07.20 |
[HADOOP] hadoop을 사용할 때 "/ webhdfs / v1 /? op = LISTSTATUS : Server Error"에서 데이터를 가져 오지 못했습니다. (0) | 2019.07.20 |
[HADOOP] Hadoop 버전 2.7.2를 사용하여 Spark에서 S3a 프로토콜을 사용하여 S3에 액세스하기 (0) | 2019.07.20 |
[HADOOP] hbase 테이블로 TSV 파일 가져 오기 (0) | 2019.07.20 |