복붙노트

[HADOOP] HDFS에서 일부 파일의 이름 지정 규칙

HADOOP

HDFS에서 일부 파일의 이름 지정 규칙

우리가 하이브에서 명령로의 INSERT 작업을 수행 할 때 실행의 결과는 HDFS에서 여러 부품 파일을 작성합니다.

예를 들면 일부 - * - ***** 또는 000000_0,000001_0 등 또는 뭔가.

이 부분 파일의 이름을 제어하는 ​​구성 / 설정이 있습니까?

내가 작동 클러스터 등 000000_0, 000001_0, 000000_1 내가이 파트 -하거나 변경하려면 생성 텍스트 - 등 그래서 그 날이 파일을 선택하고 필요한 경우 병합하기 쉽게.

바로 HQL을 실행하기 전에 하이브에 설정할 수있는 설정이있는 경우, 그 이상적 일 것이다.

미리 감사드립니다.

해결법

  1. ==============================

    1.난 당신이 할 수 있어야한다고 생각합니다

    난 당신이 할 수 있어야한다고 생각합니다

    set mapreduce.output.basename = part-;
    

    이 작동하지 않습니다. 내가 찾은 유일한 방법은 사용자 정의 파일 라이터입니다.

  2. from https://stackoverflow.com/questions/46547031/naming-convention-of-part-files-in-hdfs by cc-by-sa and MIT license