복붙노트

[HADOOP] 하이브 테이블에서 데이터 비뚤림을 식별하거나 감지하는 방법이 있습니까?

HADOOP

하이브 테이블에서 데이터 비뚤림을 식별하거나 감지하는 방법이 있습니까?

우리에게는 많은 시간이 걸리는 많은 하이브 쿼리가 있습니다. 우리는 tez 및 CBO와 같은 다른 우수 사례를 사용하고 있으며 orc 파일 등을 사용하고 있습니다.

몇 가지 명령처럼 데이터 왜곡을 검사 / 분석하는 방법이 있습니까? 설명 계획이 도움이 될까요? 그렇다면 어떤 매개 변수를 찾아야합니까?

해결법

  1. ==============================

    1.설명 계획이 도움이되지 않습니다, 당신은 데이터를 확인해야합니다. 조인 인 경우 조인과 관련된 모든 테이블에서 상위 100 조인 키 값을 선택하고 분석 함수 인 경우 키별로 파티션에 대해 동일한 작업을 수행하고 비뚤어진 키인지 확인합니다.

    설명 계획이 도움이되지 않습니다, 당신은 데이터를 확인해야합니다. 조인 인 경우 조인과 관련된 모든 테이블에서 상위 100 조인 키 값을 선택하고 분석 함수 인 경우 키별로 파티션에 대해 동일한 작업을 수행하고 비뚤어진 키인지 확인합니다.

    예:

    select key, count(*) cnt
       from table
      group by key
     having count(*)> 1000 --check also >1 for tables where it should not be duplication (like dimentions)
      order by cnt desc limit 100;
    

    키는 복잡한 조인 키 (조인 ON 조건에서 사용중인 모든 열) 일 수 있습니다.

    또한이 답변을 살펴보십시오. https://stackoverflow.com/a/51061613/2700344

  2. from https://stackoverflow.com/questions/53332761/is-there-a-way-to-identify-or-detect-data-skew-in-hive-table by cc-by-sa and MIT license