복붙노트

[HADOOP] 어떻게 각 맵의 입력 데이터의 크기를 얻거나 작업을 줄일 수있다?

HADOOP

어떻게 각 맵의 입력 데이터의 크기를 얻거나 작업을 줄일 수있다?

나는 나를 도울 수 하둡에서 각 작업 .Which 클래스의 입력 데이터의 크기를 알 필요가? FileInputFormat.java 도움이됩니다? 어떻게 사용 하는가? 그러나 일부 입력을 필요로, 그들은 무엇입니까?

해결법

  1. ==============================

    1.전체 작업의 입력 크기는 HDFS에서 입력 파일의 바로 크기입니다.

    전체 작업의 입력 크기는 HDFS에서 입력 파일의 바로 크기입니다.

    각각의 매퍼 태스크의 입력 크기는 다음의 특성 (64 디폴트 크기)에 따라 계산된다 :

    mapreduce.input.fileinputformat.split.minsize=64Mb
    

    하둡과 동일 사이즈의 분할 사이즈의 조각으로 분할 입력 :

    max(mapred.min.split.size, min(mapred.max.split.size, dfs.block.size))
    

    당신의 입력의 크기를 얻을이 속성을 사용합니다.

  2. from https://stackoverflow.com/questions/44255386/how-can-i-get-the-input-data-size-of-each-map-or-reduce-task by cc-by-sa and MIT license