[HADOOP] Hadoop은 다시 시작될 때 MapReduce 기록을 제거합니다.
HADOOPHadoop은 다시 시작될 때 MapReduce 기록을 제거합니다.
TestDFSIO 및 TeraSort 벤치 마크 도구를 사용하여 여러 하둡 테스트를 수행하고 있습니다. 처리 용량 및 데이터 노드 확장 성의 선형성을 평가하기 위해 기본적으로 다른 양의 데이터 노드로 테스트하고 있습니다.
위에서 언급 한 프로세스 중에 모든 Hadoop 환경을 여러 번 다시 시작해야했습니다. Hadoop을 다시 시작할 때마다 모든 MapReduce 작업이 제거되고 "job_2013 * _0001"에서 작업 카운터가 다시 시작됩니다. 비교를 위해 이전에 시작한 모든 MapReduce 작업을 유지하는 것이 매우 중요합니다. 그래서 내 질문은 :
¿ Hadoop이 재시작 된 후 모든 MapReduce 작업 기록을 제거하지 않도록하려면 어떻게해야합니까? ¿ Hadoop 환경 재시작 후 작업 제거를 제어 할 속성이 있습니까?
감사!
해결법
-
==============================
1.hadoop을 다시 시작한 직후 MR 작업 기록 로그가 삭제되지 않고 새 작업은 * _0001부터 계산되며 hadoop 다시 시작 후 시작된 새 작업 만 자원 관리자 웹 포털에 표시됩니다. 사실, 털실 기본값에는 2 가지 로그 관련 설정이 있습니다.
hadoop을 다시 시작한 직후 MR 작업 기록 로그가 삭제되지 않고 새 작업은 * _0001부터 계산되며 hadoop 다시 시작 후 시작된 새 작업 만 자원 관리자 웹 포털에 표시됩니다. 사실, 털실 기본값에는 2 가지 로그 관련 설정이 있습니다.
# this is where you can find the MR job history logs yarn.nodemanager.log-dirs = ${yarn.log.dir}/userlogs # this is how long the history logs will be retained yarn.nodemanager.log.retain-seconds = 10800
기본 $ {yarn.log.dir}은 $ HADOOP_HONE / etc / hadoop / yarn-env.sh에 정의되어 있습니다.
YARN_LOG_DIR="$HADOOP_YARN_HOME/logs"
BTW, Hadoop 1.X를 사용하는 경우 mapred-env.sh에서도 비슷한 설정을 찾을 수 있습니다
from https://stackoverflow.com/questions/19645557/hadoop-removes-mapreduce-history-when-it-is-restarted by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Hive SQL 코딩 스타일 : 중간 테이블? (0) | 2019.08.17 |
---|---|
[HADOOP] org.apache.hadoop.mapreduce.Job에 대한 Hadoop MultipleOutputFormat 지원 (0) | 2019.08.17 |
[HADOOP] 세미콜론으로 구분 된 필드가있는 하나의 열이있는 .csv 파일에서 Hive 테이블을 만들려면 어떻게해야합니까? (0) | 2019.08.17 |
[HADOOP] HADOOP mapreduce pgm을 사용하여 각 텍스트 값을 XML로 계산 (0) | 2019.08.17 |
[HADOOP] Hadoop Array로 작성된 값 읽기 (0) | 2019.08.17 |