복붙노트

[HADOOP] HIVE에서 ORC 파티션 테이블에 비 파티션 테이블에서 데이터를로드의 성능을 개선하는 방법

HADOOP

HIVE에서 ORC 파티션 테이블에 비 파티션 테이블에서 데이터를로드의 성능을 개선하는 방법

나는 모범 사례 하이브 테이블에서 데이터를 검색하는 내가 찾고 있어요, 쿼리를 하이브 새로운 해요. 우리는 TEZ가 실행 엔진 및 활성화 벡터화를 가지고 사용할 수있다.

우리는 하이브 테이블에서보고 만들고 싶어, 나는 그것이 실시간보고를 위해 사용될 수 있다는 것을 TEZ 문서에서 참조하십시오. 시나리오는, 내가 UI에 하이브 테이블에서 하이브 쿼리 선택 *에서 결과를 보여 드리고자합니다, 내 웹 응용 프로그램에서, 그러나 어떤 쿼리, 하이브 명령 프롬프트에서 하이브 테이블 60 개 기가 바이트 데이터가더라도 최소 20 ~ 60 초 소요됩니다.

1) 하나는 10 ~ 30 초 내에 UI에 즉시 하이브 테이블과 쇼 결과를 조회하여 실시간으로보고를 표시하는 방법을 말해 줄 수

2) 우리가 발견 한 또 다른 문제는 (우리가 ORC 테이블에 파티션되지 않은 테이블의 데이터를 덤프 때, 크기 200 열 60 2GB입니다, 처음에 우리는 HDFS의 Blob / 파일을 가리키는 테이블을 취소하십시오 분할이, ORC입니다 테이블이 분할)는, 3 + 시간 소요 ORC 테이블로 덤핑 데이터 성능을 개선하는 방법이있다.

3) 우리는 테이블과 쿼리 ORC 테이블에 선택 쿼리보다 적은 시간을내어 하이브에 삽입, 버킷 팅과 비 파티션 테이블에 쿼리하지만, 하이브 테이블 증가의 레코드 수 ORC 테이블의 SELECT 쿼리 버킷 테이블보다 더있다 않는 경우. 또한 작은 데이터 세트에 대한 성능을 향상시킬 수있는 방법이 있나요. 이 초기 단계이기 때문에, 매달마다 우리는 하이브 테이블에 50기가바이트 데이터를로드합니다. 하지만 우리는 오크 분할 된 테이블에 데이터를로드의 성능을 향상 찾고 높일 수 있습니다.

4) TEZ 적은 대기 시간, 대화 형 지원 및 보고서에 대한 지원을 드릴 다운. 어떻게 인간의 응답 시간 즉 5-40 초에 내 (상호 작용해야하는) 하이브에서 데이터를 얻기 위해 보고서를 내 드릴을 활성화합니다.

우리는 각각의 노드는 4 개의 CPU 코어 7 기가 바이트 RAM 및 각 VM에 연결된 3 디스크를 데 4 개 노드로 테스트하고 있습니다.

감사합니다, Mahender

해결법

  1. ==============================

    1.ORC 테이블에 데이터를 삽입의 속도를 개선하기 위해, 당신은 다음과 같은 매개 변수와 함께 장난 시도 할 수 있습니다 :

    ORC 테이블에 데이터를 삽입의 속도를 개선하기 위해, 당신은 다음과 같은 매개 변수와 함께 장난 시도 할 수 있습니다 :

    hive.exec.orc.memory.pool 
    hive.exec.orc.default.stripe.size
    hive.exec.orc.default.block.size 
    hive.exec.orc.default.buffer.size
    dfs.blocksize
    

    또한, 압축도 당신을 도울 수 있는지, 볼 수 있습니다. 예를 들면 :

    SET mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
    SET hive.exec.compress.intermediate = true;
    

    희망이 도움이!

  2. ==============================

    2.가장 먼저. HIVE는 실시간 데이터 처리를위한 것은 아닙니다. 아무리 데이터가있을 수 있습니다 얼마나 작은 쿼리 데이터를 반환하는 데 시간이 걸릴하지 않습니다.

    가장 먼저. HIVE는 실시간 데이터 처리를위한 것은 아닙니다. 아무리 데이터가있을 수 있습니다 얼마나 작은 쿼리 데이터를 반환하는 데 시간이 걸릴하지 않습니다.

    하이브의 진짜 힘은 엄청난 양의 데이터를 처리하는 배치에있다.

  3. from https://stackoverflow.com/questions/28920328/how-to-improve-performance-of-loading-data-from-non-partition-table-into-orc-par by cc-by-sa and MIT license