복붙노트

[HADOOP] 매퍼 작업의 결과는 디스크에서 삭제합니까 언제?

HADOOP

매퍼 작업의 결과는 디스크에서 삭제합니까 언제?

때 매퍼 작업에 대한 출력은 로컬 파일 시스템에서 삭제합니까? 전체 작업이 완료 될 때까지 그들은 계속 마십시오 그들은보다 이전 시점에 삭제합니까?

해결법

  1. ==============================

    1.지도에 추가하고 작업을 줄일 수는 두 개의 추가 작업이 생성됩니다 : 작업 설정 작업을 및 작업 정리 작업. 이들은 tasktrackers에 의해 실행 및 설치에 코드를 실행하는 데 사용되는 어떤지도 작업 전에 작업이 실행 및 정리에 모든 줄이는 작업을 완료 한 후. 작업에 구성되는 OutputCommitter 코드를 결정하는 실행하고, 기본적으로 이것은 FileOutputCommitter이다. 작업 설정 작업을 위해 그것은 최종 생성됩니다 작업에 대한 출력 디렉토리와 작업 출력을위한 임시 작업 공간, 작업 정리 작업을 위해 태스크 출력을위한 임시 작업 공간을 삭제합니다.

    지도에 추가하고 작업을 줄일 수는 두 개의 추가 작업이 생성됩니다 : 작업 설정 작업을 및 작업 정리 작업. 이들은 tasktrackers에 의해 실행 및 설치에 코드를 실행하는 데 사용되는 어떤지도 작업 전에 작업이 실행 및 정리에 모든 줄이는 작업을 완료 한 후. 작업에 구성되는 OutputCommitter 코드를 결정하는 실행하고, 기본적으로 이것은 FileOutputCommitter이다. 작업 설정 작업을 위해 그것은 최종 생성됩니다 작업에 대한 출력 디렉토리와 작업 출력을위한 임시 작업 공간, 작업 정리 작업을 위해 태스크 출력을위한 임시 작업 공간을 삭제합니다.

    OutputCommitter에서보세요.

  2. ==============================

    2.당신의 hadoop.tmp.dir가 기본 설정으로 설정되어있는 경우 (예를 들어, / tmp를 /), 가장 가능성이 당신의 OS와 기본 설정을 tmpwatch 될 수있을 것입니다. 나는을 /etc/cron.daily, /etc/cron.d/ 디렉토리에 주위를 파고 제안 등 / cron.weekly / 등, 당신의 OS의 기본처럼 정확히 확인합니다.

    당신의 hadoop.tmp.dir가 기본 설정으로 설정되어있는 경우 (예를 들어, / tmp를 /), 가장 가능성이 당신의 OS와 기본 설정을 tmpwatch 될 수있을 것입니다. 나는을 /etc/cron.daily, /etc/cron.d/ 디렉토리에 주위를 파고 제안 등 / cron.weekly / 등, 당신의 OS의 기본처럼 정확히 확인합니다.

    tmpwatch에 대해 한 가지 유념해야 할 것은 기본적으로는, 액세스 시간 키 시간, 수정하지 않을 것입니다 (즉, X 년부터 '감동'되지 않은 파일로 간주됩니다 '부실'및 제거 대상). 그러나, 액세스 시간이 업데이트되지 것을 의미하고 따라서 귀하의 tmpwatch 행동을 기울이기의 한 noatime 및 nodiratime 플래그 파일 시스템을 마운트하기 위해 하둡과 일반적인 관행입니다.

    그렇지 않으면, 하둡은 기본적으로 작업 시도 로그를 (작업 완료 후) 24 시간보다 오래된을 제거합니다. 몇 살 있지만,이 작성자는 기본 동작에 대한 몇 가지 좋은 정보를 가지고 있습니다. mapreduce.job.userlog.retain.hours 참조 섹션에 특히보세요.

    편집 : 질문의 내 오해를 지 웁니다 OP의 주석에 응답 :

    지금까지 디스크로 유출되는지도 작업의 중간 출력, 어떤 컴에서 사용하고있는 감속기에 복사로, 하둡 확실한 가이드이 대답했다 :

    출처

    나는 또한이를 제어하고 작업 정리 작업을 설명하는 소스 코드를 연결 한 것처럼 했음 @mgs은 아래 답변 +했습니다.

    작업이 성공적 여부, 더 빨리, 완료되지 후 그래서, 그래,지도 출력 데이터는 즉시 삭제됩니다.

  3. ==============================

    3."감속기가 실패 할 수 있습니다로 Tasktrackers은 작업이 완료된 후 인 JobTracker에 의해 삭제하라고 할 때까지 대신이 기다립니다. 빨리 첫 번째 만회를 검색 한대로 디스크에서지도 출력을 삭제하지 마십시오"

    "감속기가 실패 할 수 있습니다로 Tasktrackers은 작업이 완료된 후 인 JobTracker에 의해 삭제하라고 할 때까지 대신이 기다립니다. 빨리 첫 번째 만회를 검색 한대로 디스크에서지도 출력을 삭제하지 마십시오"

    하둡 : 확실한 가이드 (6.4 절)

  4. from https://stackoverflow.com/questions/18279485/when-do-the-results-from-a-mapper-task-get-deleted-from-disk by cc-by-sa and MIT license