복붙노트

[HADOOP] 어떻게 하둡에서 자바에 대한 combineFileInputFormat를 사용 하는가?

HADOOP

어떻게 하둡에서 자바에 대한 combineFileInputFormat를 사용 하는가?

나는 작은 파일의 큰 숫자와 함께 일하고지도 작업을 많이 피하기 위해 combineFileInputFormat을 사용했다. 그것은 제대로 작동하지만 문제는 내가? 내가 파일의 ID를 유지할 수있는 방법 파일의 ID가 모두 1입니다 이런 식으로, 각 파일의 ID를 가질 필요가 난 내 combineFileInputFormat에 몇 가지 코드를 추가해야 할 것입니다?

해결법

  1. ==============================

    1.CombineFileRecordReader는 그것이 현재 파일 처리를위한 구성 등록 정보를 구성, 그래서 당신은 map.input.file 속성에서 현재 파일 이름을 얻을 수있을 것입니다 :

    CombineFileRecordReader는 그것이 현재 파일 처리를위한 구성 등록 정보를 구성, 그래서 당신은 map.input.file 속성에서 현재 파일 이름을 얻을 수있을 것입니다 :

    @Override
    protected void map(Longwritable key, Text value, Context context) {
        String filePath = context.getConfiguration().get("map.input.file");
    }
    

    당신이 (mapred) 이전 API를 사용하는 경우, 속성 이름은 동일합니다.

  2. from https://stackoverflow.com/questions/14730754/how-to-use-combinefileinputformat-for-java-in-hadoop by cc-by-sa and MIT license