복붙노트

[HADOOP] MapReduce 중 디스크 유출

HADOOP

MapReduce 중 디스크 유출

나는 대답을 찾으려고하는 아주 기본적인 질문이 있습니다. 나는지도 단계, 셔플 단계 및 감소 단계에서 데이터가 유출되는 위치를 이해하기 위해 문서를 살펴 보았습니다. 매퍼 A에 16GB의 RAM이있는 것처럼 매퍼에 할당 된 메모리가 초과되면 데이터가 유출됩니다.

데이터가 HDFS에 유출됩니까, 아니면 데이터가 디스크의 tmp 폴더에 유출됩니까? 셔플 단계 중에 데이터가 한 노드에서 다른 노드로 스트리밍되고 HDFS 또는 임시 저장 위치에 저장됩니다.

이 질문을하는 이유는 작업이 완료된 후 정리 프로세스가 필요한지 파악하기위한 것입니다. 도와주세요.

해결법

  1. ==============================

    1.매퍼의 중간 파일 (유출 된 파일)은 매퍼가 실행중인 작업자 노드의 로컬 파일 시스템에 저장됩니다. 마찬가지로 한 노드에서 다른 노드로 스트리밍되는 데이터는 작업이 실행중인 작업자 노드의 로컬 파일 시스템에 저장됩니다.

    매퍼의 중간 파일 (유출 된 파일)은 매퍼가 실행중인 작업자 노드의 로컬 파일 시스템에 저장됩니다. 마찬가지로 한 노드에서 다른 노드로 스트리밍되는 데이터는 작업이 실행중인 작업자 노드의 로컬 파일 시스템에 저장됩니다.

    이 로컬 파일 시스템 경로는 hadoop.tmp.dir 특성에 의해 지정되며 기본적으로 '/ tmp'입니다.

    작업 완료 또는 실패 후 로컬 파일 시스템에서 사용되는 임시 위치가 자동으로 지워 지므로 정리 프로세스를 수행 할 필요가 없으며 프레임 워크가 자동으로 처리합니다.

  2. from https://stackoverflow.com/questions/29262194/disk-spill-during-mapreduce by cc-by-sa and MIT license