[HADOOP] hadoop이 여러 디렉토리와 파일에서 입력 받아 들일 수 있습니까?

2019. 7. 26. 15:06

cnpnote

HADOOP

hadoop이 여러 디렉토리와 파일에서 입력 받아 들일 수 있습니까?

fileinputFormat을 hadoop 입력으로 설정했습니다. arg [0] + "/ * / * / *"는 아무 파일과도 일치하지 않는다고 말했습니다.

내가 원하는 것은 여러 파일에서 읽는 것입니다 :

Directory1
---Directory11
   ---Directory111
        --f1.txt
        --f2.txt
---Directory12
Directory2
---Directory21

하둡에서 가능합니까? 감사!

해결법

==============================
1.***** 연산자를 사용하여 여러 디렉토리 및 파일에서 입력을 가져올 수 있습니다. "arg [0]"인수가 올바르지 않아 파일을 찾지 못하기 때문에 가능성이 큽니다.

***** 연산자를 사용하여 여러 디렉토리 및 파일에서 입력을 가져올 수 있습니다. "arg [0]"인수가 올바르지 않아 파일을 찾지 못하기 때문에 가능성이 큽니다.

대안으로, InputFormat.addInputPath를 사용할 수도 있고, 별도의 형식이나 매퍼가 필요한 경우 MultipleInputs 클래스를 사용할 수 있습니다.

기본 경로 추가 예제
```
FileInputFormat.addInputPath(job, myInputPath);
```
다음은 MultipleInputs의 예입니다.
```
MultipleInputs.addInputPath(job, inputPath1, TextInputFormat.class, MyMapper.class);
MultipleInputs.addInputPath(job, inputPath2, TextInputFormat.class, MyOtherMapper.class);
```
이 또 다른 질문은 매우 유사하며 좋은 대답을 가지고 있습니다. Hadoop은 여러 입력 형식을 줄입니다.

from https://stackoverflow.com/questions/16445366/can-hadoop-take-input-from-multiple-directories-and-files by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 왜 파일이 hadoop에 존재하는지 검사하면 NullPointerException이 발생합니까? (0)	2019.07.26
[HADOOP] hadoop에서 작은 파일 병합 (0)	2019.07.26
[HADOOP] hbase.hregion.max.filesize를 사용하여 HBase 영역 자동 분할 (0)	2019.07.26
[HADOOP] Hadoop지도를 어떻게 디버그 할 수 있습니까? (0)	2019.07.26
[HADOOP] HIVE에서 쿼리를 실행할 때 Tez 작업 이름을 변경하는 방법 (0)	2019.07.26

,

티스토리툴바