[HADOOP] 어떻게 각 맵의 입력 데이터의 크기를 얻거나 작업을 줄일 수있다?
HADOOP어떻게 각 맵의 입력 데이터의 크기를 얻거나 작업을 줄일 수있다?
나는 나를 도울 수 하둡에서 각 작업 .Which 클래스의 입력 데이터의 크기를 알 필요가? FileInputFormat.java 도움이됩니다? 어떻게 사용 하는가? 그러나 일부 입력을 필요로, 그들은 무엇입니까?
해결법
-
==============================
1.전체 작업의 입력 크기는 HDFS에서 입력 파일의 바로 크기입니다.
전체 작업의 입력 크기는 HDFS에서 입력 파일의 바로 크기입니다.
각각의 매퍼 태스크의 입력 크기는 다음의 특성 (64 디폴트 크기)에 따라 계산된다 :
mapreduce.input.fileinputformat.split.minsize=64Mb
하둡과 동일 사이즈의 분할 사이즈의 조각으로 분할 입력 :
max(mapred.min.split.size, min(mapred.max.split.size, dfs.block.size))
당신의 입력의 크기를 얻을이 속성을 사용합니다.
from https://stackoverflow.com/questions/44255386/how-can-i-get-the-input-data-size-of-each-map-or-reduce-task by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 어떻게 org.apache.parquet.hadoop.ParquetWriter를 사용하여 마루에 NULL 값을 기록 할 수 있습니까? (0) | 2019.10.06 |
---|---|
[HADOOP] 나는 / tmp 디렉토리와 / 사용자 / 하이브 / 창고를 작성해야합니까? (0) | 2019.10.06 |
[HADOOP] java.lang.ClassNotFoundException가 : org.apache.hadoop.hive.service.HiveServerException (0) | 2019.10.06 |
[HADOOP] 왜 매퍼와 작업이 유일한 클러스터의 느린입니까? (0) | 2019.10.06 |
[HADOOP] 어떻게 OutputCommitter의 설정을 설정하는 방법? (0) | 2019.10.05 |