[HADOOP] Hadoop Mapreduce 콘솔 출력에 대한 설명
HADOOPHadoop Mapreduce 콘솔 출력에 대한 설명
나는 hadoop 환경에서 초보자입니다. 이미 2 노드 클러스터 hadoop을 설정했습니다. 그런 다음 샘플 맵 축소 응용 프로그램을 실행합니다. (실제로 단어 수). 다음과 같은 결과가 나옵니다.
File System Counters
FILE: Number of bytes read=492
FILE: Number of bytes written=6463014
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=71012
HDFS: Number of bytes written=195
HDFS: Number of read operations=404
HDFS: Number of large read operations=0
HDFS: Number of write operations=2
Job Counters
Launched map tasks=80
Launched reduce tasks=1
Data-local map tasks=80
Total time spent by all maps in occupied slots (ms)=429151
Total time spent by all reduces in occupied slots (ms)=72374
Map-Reduce Framework
Map input records=80
Map output records=8
Map output bytes=470
Map output materialized bytes=966
Input split bytes=11040
Combine input records=0
Combine output records=0
Reduce input groups=1
Reduce shuffle bytes=966
Reduce input records=8
Reduce output records=5
Spilled Records=16
Shuffled Maps =80
Failed Shuffles=0
Merged Map outputs=80
GC time elapsed (ms)=5033
CPU time spent (ms)=59310
Physical memory (bytes) snapshot=18515763200
Virtual memory (bytes) snapshot=169808543744
Total committed heap usage (bytes)=14363394048
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=29603
File Output Format Counters
Bytes Written=195
내가 가지고있는 모든 데이터에 대한 설명이 있습니까? 특히,
해결법
-
==============================
1.Mapreduce framwork는 작업 실행을 위해 제출 된 카운터를 유지 관리합니다. 이 카운터는 작업 통계를 보완하고 벤치 마크 및 성능 분석을 보도록 사용자에게 표시됩니다. 당신의 직업 산출은 당신에게 몇몇 카운터를 보여주었습니다. 카운터에 대한 최종 가이드 8 장에는 좋은 설명이 있습니다. 한 번 확인해 보시기 바랍니다.
Mapreduce framwork는 작업 실행을 위해 제출 된 카운터를 유지 관리합니다. 이 카운터는 작업 통계를 보완하고 벤치 마크 및 성능 분석을 보도록 사용자에게 표시됩니다. 당신의 직업 산출은 당신에게 몇몇 카운터를 보여주었습니다. 카운터에 대한 최종 가이드 8 장에는 좋은 설명이 있습니다. 한 번 확인해 보시기 바랍니다.
당신이 요청한 항목에 대해 설명하기 위해,
1) 모든 맵에 소요 된 총 시간 - 실행중인 맵 작업의 총 시간 (밀리 초 단위). 작업 포함 (투기 적 (speculative)이란 특정 시간 동안 기다린 후에 실패하거나 느린 작업을 실행하는 것을 의미하며 투기 적 작업은 특정 맵 작업을 다시 실행한다는 것을 의미 함).
2) 모든 감소에 소요 된 총 시간 - 실행하는 데 걸린 총 시간은 밀리 초 단위로 작업을 줄입니다.
3) CPU 시간 - 작업의 누적 CPU 시간 (밀리 초 단위)
4) 물리적 메모리 (Physical memory) - 태스크에 의해 바이트 단위로 사용되는 물리적 메모리이며, 여기서의 메모리는 누출에 사용 된 전체 메모리를 계산합니다.
5) 총 가상 메모리 - 작업에 의해 바이트 단위로 사용되는 가상 메모리
6) 총 커밋 된 힙 사용량 - JVM에서 사용할 수있는 총 메모리 크기 (바이트 단위)
희망이 도움이됩니다. 카운터의 카테고리와 세부 정보는 최종 가이드에서 제공됩니다. 추가 정보가 필요하면 알려주십시오.
고맙습니다.
RAM은 작업을 처리 할 때 사용되는 기본 메모리입니다. 데이터가 RAM으로 전송되고 작업이 처리되어 RAM에 저장됩니다. 그러나 RAM 크기가 할당 된 데이터가 더 클 수 있습니다. 이러한 시나리오에서 운영 체제는 데이터를 디스크에 유지하고 RAM과 스와핑하여 메모리가 더 높은 파일의 경우 파일 크기가 적어도 충분합니다. 예 : RAM이 64MB이고 파일 크기가 128MB 인 경우 64MB가 먼저 RAM에 저장되고 다른 64MB는 DISK에 보관 된 것으로 가정합니다. 64MB와 64MB로 유지하지만 내부적으로 세그먼트 / 페이지로 나눕니다.
방금 이해할 수있는 모범을 보였습니다. 가상 메모리는 페이지를 사용하고 DISK 및 RAM으로 스와핑하여 RAM보다 큰 파일을 작업하는 개념입니다. 따라서 위의 경우 가상 메모리로 불리는 64 MB를 RAM으로 디스크에서 가상으로 사용합니다.
당신이 이해하기를 바랍니다. 답변에 만족하면 대답으로 받아들입니다. 질문이 있으면 알려주세요.
명령 줄에서 JVM_OPTS를 사용하여 설정된 객체 저장소에 사용되는 JVM 메모리를 힙합니다. 일반적으로 모든 Java 프로그램에는 이러한 설정이 필요합니다.
from https://stackoverflow.com/questions/25482426/explanation-for-hadoop-mapreduce-console-output by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hadoop (또는 dfs 명령)을 실행할 때 더 이상 사용되지 않는 오류가 계속 나타나는 이유는 무엇입니까? (0) | 2019.06.16 |
---|---|
[HADOOP] 각 Hadoop 매퍼가 읽을 기본 크기는 얼마입니까? (0) | 2019.06.16 |
[HADOOP] Hadoop에 저장된 문서 검색 - 사용할 도구는 무엇입니까? (0) | 2019.06.16 |
[HADOOP] 멀티 코어 8 노드 클러스터에서 Hadoop Map 작업을 예약하는 방법은 무엇입니까? (0) | 2019.06.16 |
[HADOOP] 파일을 날짜로 분할하여 kafka에서 hdfs로 가장 효율적으로 작성하는 방법은 무엇입니까? (0) | 2019.06.16 |