복붙노트

[HADOOP] Hadoop Mapreduce 콘솔 출력에 대한 설명

HADOOP

Hadoop Mapreduce 콘솔 출력에 대한 설명

나는 hadoop 환경에서 초보자입니다. 이미 2 노드 클러스터 hadoop을 설정했습니다. 그런 다음 샘플 맵 축소 응용 프로그램을 실행합니다. (실제로 단어 수). 다음과 같은 결과가 나옵니다.

File System Counters
    FILE: Number of bytes read=492
    FILE: Number of bytes written=6463014
    FILE: Number of read operations=0
    FILE: Number of large read operations=0
    FILE: Number of write operations=0
    HDFS: Number of bytes read=71012
    HDFS: Number of bytes written=195
    HDFS: Number of read operations=404
    HDFS: Number of large read operations=0
    HDFS: Number of write operations=2
Job Counters 
    Launched map tasks=80
    Launched reduce tasks=1
    Data-local map tasks=80
    Total time spent by all maps in occupied slots (ms)=429151
    Total time spent by all reduces in occupied slots (ms)=72374
Map-Reduce Framework
    Map input records=80
    Map output records=8
    Map output bytes=470
    Map output materialized bytes=966
    Input split bytes=11040
    Combine input records=0
    Combine output records=0
    Reduce input groups=1
    Reduce shuffle bytes=966
    Reduce input records=8
    Reduce output records=5
    Spilled Records=16
    Shuffled Maps =80
    Failed Shuffles=0
    Merged Map outputs=80
    GC time elapsed (ms)=5033
    CPU time spent (ms)=59310
    Physical memory (bytes) snapshot=18515763200
    Virtual memory (bytes) snapshot=169808543744
    Total committed heap usage (bytes)=14363394048
Shuffle Errors
    BAD_ID=0
    CONNECTION=0
    IO_ERROR=0
    WRONG_LENGTH=0
    WRONG_MAP=0
    WRONG_REDUCE=0
File Input Format Counters 
    Bytes Read=29603
File Output Format Counters 
    Bytes Written=195

내가 가지고있는 모든 데이터에 대한 설명이 있습니까? 특히,

해결법

  1. ==============================

    1.Mapreduce framwork는 작업 실행을 위해 제출 된 카운터를 유지 관리합니다. 이 카운터는 작업 통계를 보완하고 벤치 마크 및 성능 분석을 보도록 사용자에게 표시됩니다. 당신의 직업 산출은 당신에게 몇몇 카운터를 보여주었습니다. 카운터에 대한 최종 가이드 8 장에는 좋은 설명이 있습니다. 한 번 확인해 보시기 바랍니다.

    Mapreduce framwork는 작업 실행을 위해 제출 된 카운터를 유지 관리합니다. 이 카운터는 작업 통계를 보완하고 벤치 마크 및 성능 분석을 보도록 사용자에게 표시됩니다. 당신의 직업 산출은 당신에게 몇몇 카운터를 보여주었습니다. 카운터에 대한 최종 가이드 8 장에는 좋은 설명이 있습니다. 한 번 확인해 보시기 바랍니다.

    당신이 요청한 항목에 대해 설명하기 위해,

    1) 모든 맵에 소요 된 총 시간 - 실행중인 맵 작업의 총 시간 (밀리 초 단위). 작업 포함 (투기 적 (speculative)이란 특정 시간 동안 기다린 후에 실패하거나 느린 작업을 실행하는 것을 의미하며 투기 적 작업은 특정 맵 작업을 다시 실행한다는 것을 의미 함).

    2) 모든 감소에 소요 된 총 시간 - 실행하는 데 걸린 총 시간은 밀리 초 단위로 작업을 줄입니다.

    3) CPU 시간 - 작업의 누적 CPU 시간 (밀리 초 단위)

    4) 물리적 메모리 (Physical memory) - 태스크에 의해 바이트 단위로 사용되는 물리적 메모리이며, 여기서의 메모리는 누출에 사용 된 전체 메모리를 계산합니다.

    5) 총 가상 메모리 - 작업에 의해 바이트 단위로 사용되는 가상 메모리

    6) 총 커밋 된 힙 사용량 - JVM에서 사용할 수있는 총 메모리 크기 (바이트 단위)

    희망이 도움이됩니다. 카운터의 카테고리와 세부 정보는 최종 가이드에서 제공됩니다. 추가 정보가 필요하면 알려주십시오.

    고맙습니다.

    RAM은 작업을 처리 할 때 사용되는 기본 메모리입니다. 데이터가 RAM으로 전송되고 작업이 처리되어 RAM에 저장됩니다. 그러나 RAM 크기가 할당 된 데이터가 더 클 수 있습니다. 이러한 시나리오에서 운영 체제는 데이터를 디스크에 유지하고 RAM과 스와핑하여 메모리가 더 높은 파일의 경우 파일 크기가 적어도 충분합니다. 예 : RAM이 64MB이고 파일 크기가 128MB 인 경우 64MB가 먼저 RAM에 저장되고 다른 64MB는 DISK에 보관 된 것으로 가정합니다. 64MB와 64MB로 유지하지만 내부적으로 세그먼트 / 페이지로 나눕니다.

    방금 이해할 수있는 모범을 보였습니다. 가상 메모리는 페이지를 사용하고 DISK 및 RAM으로 스와핑하여 RAM보다 큰 파일을 작업하는 개념입니다. 따라서 위의 경우 가상 메모리로 불리는 64 MB를 RAM으로 디스크에서 가상으로 사용합니다.

    당신이 이해하기를 바랍니다. 답변에 만족하면 대답으로 받아들입니다. 질문이 있으면 알려주세요.

    명령 줄에서 JVM_OPTS를 사용하여 설정된 객체 저장소에 사용되는 JVM 메모리를 힙합니다. 일반적으로 모든 Java 프로그램에는 이러한 설정이 필요합니다.

  2. from https://stackoverflow.com/questions/25482426/explanation-for-hadoop-mapreduce-console-output by cc-by-sa and MIT license