복붙노트

[HADOOP] 하둡의 분산 캐시 수명

HADOOP

하둡의 분산 캐시 수명

Hadoop 스트리밍 작업에서 분산 캐시 메커니즘을 사용하여 파일을 노드로 전송할 때 작업이 완료된 후 시스템에서 이러한 파일을 삭제합니까? 캐시가 삭제 되었다면 캐시가 여러 작업에 남아 있도록하는 방법이 있습니까? Amazon의 Elastic Mapreduce에서도 이와 동일한 방식으로 작동합니까?

해결법

  1. ==============================

    1.나는 소스 코드에서 파고 들었고 파일이 TrackerDistributedCacheManager에 의해 참조 횟수가 0으로 떨어지면 1 분에 한 번 삭제되는 것처럼 보입니다. TaskRunner는 작업이 끝나면 모든 파일을 명시 적으로 해제합니다. TaskRunner를 편집하지 말고 더 명확한 방법을 통해 캐시를 제어해야합니까?

    나는 소스 코드에서 파고 들었고 파일이 TrackerDistributedCacheManager에 의해 참조 횟수가 0으로 떨어지면 1 분에 한 번 삭제되는 것처럼 보입니다. TaskRunner는 작업이 끝나면 모든 파일을 명시 적으로 해제합니다. TaskRunner를 편집하지 말고 더 명확한 방법을 통해 캐시를 제어해야합니까?

  2. ==============================

    2.필자는 AWS 포럼에서이 질문을 게시하고 여러 작업에서 지속되는 방식으로 파일을 전송하기 위해 hadoop fs -get을 사용하는 것이 좋습니다.

    필자는 AWS 포럼에서이 질문을 게시하고 여러 작업에서 지속되는 방식으로 파일을 전송하기 위해 hadoop fs -get을 사용하는 것이 좋습니다.

  3. from https://stackoverflow.com/questions/4483733/life-of-distributed-cache-in-hadoop by cc-by-sa and MIT license