[HADOOP] MapReduce 중 디스크 유출
HADOOPMapReduce 중 디스크 유출
나는 대답을 찾으려고하는 아주 기본적인 질문이 있습니다. 나는지도 단계, 셔플 단계 및 감소 단계에서 데이터가 유출되는 위치를 이해하기 위해 문서를 살펴 보았습니다. 매퍼 A에 16GB의 RAM이있는 것처럼 매퍼에 할당 된 메모리가 초과되면 데이터가 유출됩니다.
데이터가 HDFS에 유출됩니까, 아니면 데이터가 디스크의 tmp 폴더에 유출됩니까? 셔플 단계 중에 데이터가 한 노드에서 다른 노드로 스트리밍되고 HDFS 또는 임시 저장 위치에 저장됩니다.
이 질문을하는 이유는 작업이 완료된 후 정리 프로세스가 필요한지 파악하기위한 것입니다. 도와주세요.
해결법
-
==============================
1.매퍼의 중간 파일 (유출 된 파일)은 매퍼가 실행중인 작업자 노드의 로컬 파일 시스템에 저장됩니다. 마찬가지로 한 노드에서 다른 노드로 스트리밍되는 데이터는 작업이 실행중인 작업자 노드의 로컬 파일 시스템에 저장됩니다.
매퍼의 중간 파일 (유출 된 파일)은 매퍼가 실행중인 작업자 노드의 로컬 파일 시스템에 저장됩니다. 마찬가지로 한 노드에서 다른 노드로 스트리밍되는 데이터는 작업이 실행중인 작업자 노드의 로컬 파일 시스템에 저장됩니다.
이 로컬 파일 시스템 경로는 hadoop.tmp.dir 특성에 의해 지정되며 기본적으로 '/ tmp'입니다.
작업 완료 또는 실패 후 로컬 파일 시스템에서 사용되는 임시 위치가 자동으로 지워 지므로 정리 프로세스를 수행 할 필요가 없으며 프레임 워크가 자동으로 처리합니다.
from https://stackoverflow.com/questions/29262194/disk-spill-during-mapreduce by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Pig Latin에서 그룹당 하나의 파일 작성 (0) | 2019.08.15 |
---|---|
[HADOOP] 분산 캐시 hadoop을 통해 jar 추가 (0) | 2019.08.15 |
[HADOOP] MapReduce 작업 수 (0) | 2019.08.15 |
[HADOOP] 압축 파일을 입력으로하여 hadoop을 실행 중입니다. hadoop이 읽은 데이터 입력 순서가 맞지 않습니다. 숫자 형식 예외 (0) | 2019.08.15 |
[HADOOP] hadoop Map reduce를 사용하여 .pst를 처리 / 추출하는 방법 (0) | 2019.08.15 |