복붙노트

[HADOOP] Hadoop은 다시 시작될 때 MapReduce 기록을 제거합니다.

HADOOP

Hadoop은 다시 시작될 때 MapReduce 기록을 제거합니다.

TestDFSIO 및 TeraSort 벤치 마크 도구를 사용하여 여러 하둡 테스트를 수행하고 있습니다. 처리 용량 및 데이터 노드 확장 성의 선형성을 평가하기 위해 기본적으로 다른 양의 데이터 노드로 테스트하고 있습니다.

위에서 언급 한 프로세스 중에 모든 Hadoop 환경을 여러 번 다시 시작해야했습니다. Hadoop을 다시 시작할 때마다 모든 MapReduce 작업이 제거되고 "job_2013 * _0001"에서 작업 카운터가 다시 시작됩니다. 비교를 위해 이전에 시작한 모든 MapReduce 작업을 유지하는 것이 매우 중요합니다. 그래서 내 질문은 :

¿ Hadoop이 재시작 된 후 모든 MapReduce 작업 기록을 제거하지 않도록하려면 어떻게해야합니까? ¿ Hadoop 환경 재시작 후 작업 제거를 제어 할 속성이 있습니까?

감사!

해결법

  1. ==============================

    1.hadoop을 다시 시작한 직후 MR 작업 기록 로그가 삭제되지 않고 새 작업은 * _0001부터 계산되며 hadoop 다시 시작 후 시작된 새 작업 만 자원 관리자 웹 포털에 표시됩니다. 사실, 털실 기본값에는 2 가지 로그 관련 설정이 있습니다.

    hadoop을 다시 시작한 직후 MR 작업 기록 로그가 삭제되지 않고 새 작업은 * _0001부터 계산되며 hadoop 다시 시작 후 시작된 새 작업 만 자원 관리자 웹 포털에 표시됩니다. 사실, 털실 기본값에는 2 가지 로그 관련 설정이 있습니다.

    # this is where you can find the MR job history logs
    yarn.nodemanager.log-dirs = ${yarn.log.dir}/userlogs 
    
    # this is how long the history logs will be retained
    yarn.nodemanager.log.retain-seconds = 10800
    

    기본 $ {yarn.log.dir}은 $ HADOOP_HONE / etc / hadoop / yarn-env.sh에 정의되어 있습니다.

    YARN_LOG_DIR="$HADOOP_YARN_HOME/logs"
    

    BTW, Hadoop 1.X를 사용하는 경우 mapred-env.sh에서도 비슷한 설정을 찾을 수 있습니다

  2. from https://stackoverflow.com/questions/19645557/hadoop-removes-mapreduce-history-when-it-is-restarted by cc-by-sa and MIT license