복붙노트

[HADOOP] mapper가 입력으로 무시되는 파일은 무엇입니까?

HADOOP

mapper가 입력으로 무시되는 파일은 무엇입니까?

여러 MapReduce 작업을 체인화하고 결과와 함께 일부 메타 정보 (예 : 구성 또는 원래 입력 이름)를 전달 / 저장하려고합니다. 적어도 "_SUCCESS"파일과 "_logs"디렉토리의 모든 내용은 무시해야합니다.

기본적으로 InputReader에서 무시되는 파일 이름 패턴이 있습니까? 아니면 그냥 고정 된 제한 목록입니까?

해결법

  1. ==============================

    1.FileInputFormat은 기본적으로 다음과 같은 hiddenFileFilter를 사용합니다.

    FileInputFormat은 기본적으로 다음과 같은 hiddenFileFilter를 사용합니다.

      private static final PathFilter hiddenFileFilter = new PathFilter(){
          public boolean accept(Path p){
            String name = p.getName(); 
            return !name.startsWith("_") && !name.startsWith("."); 
          }
        }; 
    

    따라서 TextInputFormat, KeyValueTextInputFormat, SequenceFileInputFormat 등의 FileInputFormat을 사용하면 숨겨진 파일 (파일 이름이 "_"또는 "."으로 시작됨)은 무시됩니다.

    FileInputFormat.setInputPathFilter를 사용하여 사용자 정의 PathFilter를 설정할 수 있습니다. hiddenFileFilter는 항상 활성화되어 있습니다.

  2. from https://stackoverflow.com/questions/19830264/which-files-are-ignored-as-input-by-mapper by cc-by-sa and MIT license