[HADOOP] 어떻게 하둡에서 자바에 대한 combineFileInputFormat를 사용 하는가?
HADOOP어떻게 하둡에서 자바에 대한 combineFileInputFormat를 사용 하는가?
나는 작은 파일의 큰 숫자와 함께 일하고지도 작업을 많이 피하기 위해 combineFileInputFormat을 사용했다. 그것은 제대로 작동하지만 문제는 내가? 내가 파일의 ID를 유지할 수있는 방법 파일의 ID가 모두 1입니다 이런 식으로, 각 파일의 ID를 가질 필요가 난 내 combineFileInputFormat에 몇 가지 코드를 추가해야 할 것입니다?
해결법
-
==============================
1.CombineFileRecordReader는 그것이 현재 파일 처리를위한 구성 등록 정보를 구성, 그래서 당신은 map.input.file 속성에서 현재 파일 이름을 얻을 수있을 것입니다 :
CombineFileRecordReader는 그것이 현재 파일 처리를위한 구성 등록 정보를 구성, 그래서 당신은 map.input.file 속성에서 현재 파일 이름을 얻을 수있을 것입니다 :
@Override protected void map(Longwritable key, Text value, Context context) { String filePath = context.getConfiguration().get("map.input.file"); }
당신이 (mapred) 이전 API를 사용하는 경우, 속성 이름은 동일합니다.
from https://stackoverflow.com/questions/14730754/how-to-use-combinefileinputformat-for-java-in-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 읽기 / Windows 서버에서 HDFS에 파일을 작성 (0) | 2019.10.11 |
---|---|
[HADOOP] 계획에 대한 파일 시스템 없습니다 : HDFS (0) | 2019.10.11 |
[HADOOP] 웹 응용 프로그램에서 맵리 듀스 작업을 실행 (0) | 2019.10.11 |
[HADOOP] 하둡 스트리밍 : 보류 상태에서 작업을 줄일 수는 "여지 작업을 줄일 수 없기 때문."라고 (0) | 2019.10.11 |
[HADOOP] 십일) HiveQL에 - 당신은 어떻게> 현재 날짜 '이벤트 날짜를받을 수 있나요? (0) | 2019.10.11 |