[HADOOP] mapper가 입력으로 무시되는 파일은 무엇입니까?
HADOOPmapper가 입력으로 무시되는 파일은 무엇입니까?
여러 MapReduce 작업을 체인화하고 결과와 함께 일부 메타 정보 (예 : 구성 또는 원래 입력 이름)를 전달 / 저장하려고합니다. 적어도 "_SUCCESS"파일과 "_logs"디렉토리의 모든 내용은 무시해야합니다.
기본적으로 InputReader에서 무시되는 파일 이름 패턴이 있습니까? 아니면 그냥 고정 된 제한 목록입니까?
해결법
-
==============================
1.FileInputFormat은 기본적으로 다음과 같은 hiddenFileFilter를 사용합니다.
FileInputFormat은 기본적으로 다음과 같은 hiddenFileFilter를 사용합니다.
private static final PathFilter hiddenFileFilter = new PathFilter(){ public boolean accept(Path p){ String name = p.getName(); return !name.startsWith("_") && !name.startsWith("."); } };
따라서 TextInputFormat, KeyValueTextInputFormat, SequenceFileInputFormat 등의 FileInputFormat을 사용하면 숨겨진 파일 (파일 이름이 "_"또는 "."으로 시작됨)은 무시됩니다.
FileInputFormat.setInputPathFilter를 사용하여 사용자 정의 PathFilter를 설정할 수 있습니다. hiddenFileFilter는 항상 활성화되어 있습니다.
from https://stackoverflow.com/questions/19830264/which-files-are-ignored-as-input-by-mapper by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] wholeTextFiles를 사용하여 Spark에서 gz 파일을 읽는 방법 (0) | 2019.06.02 |
---|---|
[HADOOP] OOZIE-4.1.0에서 다중 워크 플로우 실행시 오류 (0) | 2019.06.02 |
[HADOOP] hadoop MultipleInputs가 ClassCastException로 실패합니다. (0) | 2019.06.02 |
[HADOOP] Hadoop MapReduce 중간 산출물 (0) | 2019.06.02 |
[HADOOP] 스파크 1.6 - hadoop 바이너리 경로에서 winutils 바이너리를 찾지 못했습니다. (0) | 2019.06.02 |