분산 캐시 및 성능 하둡

hadoop 분산 캐시에 대한 이해를 명확하게하고 싶습니다. 분산 캐시에 파일을 추가하면 파일이 클러스터에있는 모든 노드의 디스크에로드됩니다.

따라서 파일의 데이터는 어떻게 클러스터의 모든 노드로 전송됩니까? 네트워크를 통해서입니까? 그렇다면 네트워크에 부담을주지 않습니까?

나는 다음과 같은 생각을 가지고 있습니다.

파일이 크면 네트워크 정체가 발생하지 않습니까?

파일의 크기가 중간 또는 작은 경우에도 노드 수가 많으면 파일 복제 및 모든 노드로의 전송으로 인해 네트워크 정체와 메모리 제한이 발생하지 않습니까?

이 개념을 이해하도록 도와주세요.

감사!!!

해결법

==============================
1.분산 캐시의 오버 헤드는 합리적으로 작은 캐시 데이터를 계산을 수행하는 작업 추적기에 로컬로 푸시하는 방법으로 의도 된대로 사용되는 한 미미합니다.

분산 캐시의 오버 헤드는 합리적으로 작은 캐시 데이터를 계산을 수행하는 작업 추적기에 로컬로 푸시하는 방법으로 의도 된대로 사용되는 한 미미합니다.

편집 : 다음은 0.20에 대한 DistributedCache 설명서입니다. 파일은 URL을 통해 지정됩니다. 일반적으로 로컬 hdfs : // 설정에서 무언가를 사용합니다.
==============================
2.분산 캐시에 대해 이해하는 것이 정확하다고 생각합니다. 나도 그렇게 생각하기 때문에 :) 분산 캐시의 복제를 증가시켜 네트워크 전송을 줄일 수 있습니다.

분산 캐시에 대해 이해하는 것이 정확하다고 생각합니다. 나도 그렇게 생각하기 때문에 :) 분산 캐시의 복제를 증가시켜 네트워크 전송을 줄일 수 있습니다.

[HADOOP] Webhdfs가 잘못된 데이터 노드 주소를 반환합니다 (0)	2019.09.06
[HADOOP] Pig ERROR 2998 : 처리되지 않은 내부 오류입니다. 정적 (잘못된 이름 : com / company / Static) (0)	2019.09.06
[HADOOP] 트위터 데이터를로드하기위한 하이브 테이블 오류 생성 (0)	2019.08.18
[HADOOP] Hive에서 15 분 미만의 날짜 차이 (0)	2019.08.18
[HADOOP] Apache Knox Gateway는 Cloudera 4.5와 호환됩니까? (0)	2019.08.18