[HADOOP] 하둡의 분산 캐시 수명
HADOOP하둡의 분산 캐시 수명
Hadoop 스트리밍 작업에서 분산 캐시 메커니즘을 사용하여 파일을 노드로 전송할 때 작업이 완료된 후 시스템에서 이러한 파일을 삭제합니까? 캐시가 삭제 되었다면 캐시가 여러 작업에 남아 있도록하는 방법이 있습니까? Amazon의 Elastic Mapreduce에서도 이와 동일한 방식으로 작동합니까?
해결법
-
==============================
1.나는 소스 코드에서 파고 들었고 파일이 TrackerDistributedCacheManager에 의해 참조 횟수가 0으로 떨어지면 1 분에 한 번 삭제되는 것처럼 보입니다. TaskRunner는 작업이 끝나면 모든 파일을 명시 적으로 해제합니다. TaskRunner를 편집하지 말고 더 명확한 방법을 통해 캐시를 제어해야합니까?
나는 소스 코드에서 파고 들었고 파일이 TrackerDistributedCacheManager에 의해 참조 횟수가 0으로 떨어지면 1 분에 한 번 삭제되는 것처럼 보입니다. TaskRunner는 작업이 끝나면 모든 파일을 명시 적으로 해제합니다. TaskRunner를 편집하지 말고 더 명확한 방법을 통해 캐시를 제어해야합니까?
-
==============================
2.필자는 AWS 포럼에서이 질문을 게시하고 여러 작업에서 지속되는 방식으로 파일을 전송하기 위해 hadoop fs -get을 사용하는 것이 좋습니다.
필자는 AWS 포럼에서이 질문을 게시하고 여러 작업에서 지속되는 방식으로 파일을 전송하기 위해 hadoop fs -get을 사용하는 것이 좋습니다.
from https://stackoverflow.com/questions/4483733/life-of-distributed-cache-in-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] SOCKS 프록시를 통해 Hadoop을 사용하고 있습니까? (0) | 2019.08.04 |
---|---|
[HADOOP] HDFS 파일 비교 (0) | 2019.08.04 |
[HADOOP] 네임 노드 고 가용성 클라이언트 요청 (0) | 2019.08.04 |
[HADOOP] hadoop의 데이터 노드가 시작되지 않습니다. (0) | 2019.08.04 |
[HADOOP] Hadoop - java.net.ConnectException : 연결이 거부되었습니다. (0) | 2019.08.04 |