복붙노트

[HADOOP] 분산 캐시 및 성능 하둡

HADOOP

분산 캐시 및 성능 하둡

hadoop 분산 캐시에 대한 이해를 명확하게하고 싶습니다. 분산 캐시에 파일을 추가하면 파일이 클러스터에있는 모든 노드의 디스크에로드됩니다.

따라서 파일의 데이터는 어떻게 클러스터의 모든 노드로 전송됩니까? 네트워크를 통해서입니까? 그렇다면 네트워크에 부담을주지 않습니까?

나는 다음과 같은 생각을 가지고 있습니다.

파일이 크면 네트워크 정체가 발생하지 않습니까?

파일의 크기가 중간 또는 작은 경우에도 노드 수가 많으면 파일 복제 및 모든 노드로의 전송으로 인해 네트워크 정체와 메모리 제한이 발생하지 않습니까?

이 개념을 이해하도록 도와주세요.

감사!!!

해결법

  1. ==============================

    1.분산 캐시의 오버 헤드는 합리적으로 작은 캐시 데이터를 계산을 수행하는 작업 추적기에 로컬로 푸시하는 방법으로 의도 된대로 사용되는 한 미미합니다.

    분산 캐시의 오버 헤드는 합리적으로 작은 캐시 데이터를 계산을 수행하는 작업 추적기에 로컬로 푸시하는 방법으로 의도 된대로 사용되는 한 미미합니다.

    편집 : 다음은 0.20에 대한 DistributedCache 설명서입니다. 파일은 URL을 통해 지정됩니다. 일반적으로 로컬 hdfs : // 설정에서 무언가를 사용합니다.

  2. ==============================

    2.분산 캐시에 대해 이해하는 것이 정확하다고 생각합니다. 나도 그렇게 생각하기 때문에 :) 분산 캐시의 복제를 증가시켜 네트워크 전송을 줄일 수 있습니다.

    분산 캐시에 대해 이해하는 것이 정확하다고 생각합니다. 나도 그렇게 생각하기 때문에 :) 분산 캐시의 복제를 증가시켜 네트워크 전송을 줄일 수 있습니다.

  3. from https://stackoverflow.com/questions/13061187/distributed-cache-and-performance-hadoop by cc-by-sa and MIT license