복붙노트

[HADOOP] 이유는 무엇입니까 단일 출력 파일에 하이브 결과에지도에만 작업

HADOOP

이유는 무엇입니까 단일 출력 파일에 하이브 결과에지도에만 작업

나는 다음과 같은 쿼리를 실행하면 내가 8 매퍼 0 감속기를 가지고 있지만, 나는 출력으로 하나의 파일을 얻을.

create table table_2 as select * from table_1.

8 매퍼가 호출되고 더 감속기 단계가 없다. table_2의 위치에서 단지 하나의 파일 만이 우리가 8 매퍼 0 감속기를 가지고, 거기에 8 개 파일 안된다.

해결법

  1. ==============================

    1.하이브 문서, 구성 속성에서 ...

    하이브 문서, 구성 속성에서 ...

    (가) 테스트 데이터 세트가 매우 작고 (b)는 당신이 TEZ하지만 평범한 구식 맵리 듀스를 사용하지 않는 경우에 따라서, 다음 하이브는 기본적으로 (중간) 결과를 병합 단지 사후지도 단계를 실행합니다.

    그 후 일어나지 않을 것입니다 반면 true로 hive.merge.mapredfiles을 강제하지 않는 한, 단계를 줄일 수 있습니다.

  2. from https://stackoverflow.com/questions/47272492/why-does-a-map-only-job-in-hive-results-in-a-single-output-file by cc-by-sa and MIT license