복붙노트

[HADOOP] 분산 시스템에 노드의 추가의 데이터 부문

HADOOP

분산 시스템에 노드의 추가의 데이터 부문

나는 1000 개 스토리지 노드를 말할 보유하고있는 컴퓨터의 분산 네트워크를 데 가정하자. 새로운 노드가 추가되면 지금 무슨 짓을해야 하는가? 데이터는 이제 동일하게 1001 개 노드로 나누어 얻을해야 의미?

또한 것이다 노드 범위의 경우 응답 변화는 10 대신 1000.

해결법

  1. ==============================

    1.클라이언트 머신은 첫 번째 블록 A는, 블록 B는 다음의 클라이언트 머신 네임 노드와 상호 작용 말해 블록에 파일을 분할하기 위해 이러한 블록을 배치하는 위치를 요청한다 (블록 블록 B) .NameNode 데이터를 기록하기의 Network mode로 데이타 노드 목록을 제공한다. 네임 노드는 일반적으로의 네트워크에서 가장 가까운 데이터 노드를 선택합니다.

    클라이언트 머신은 첫 번째 블록 A는, 블록 B는 다음의 클라이언트 머신 네임 노드와 상호 작용 말해 블록에 파일을 분할하기 위해 이러한 블록을 배치하는 위치를 요청한다 (블록 블록 B) .NameNode 데이터를 기록하기의 Network mode로 데이타 노드 목록을 제공한다. 네임 노드는 일반적으로의 네트워크에서 가장 가까운 데이터 노드를 선택합니다.

    그런 다음 클라이언트는 그 목록에서 첫 번째 데이터 노드를 선택하고 데이터 노드에 첫 번째 블록을 작성하고 데이터 노드는 다른 데이타 노드에 블록을 복제합니다. 네임 노드는 파일과 관련된 블록에 대한 정보를 유지합니다.

    데이터 노드가이 작업을 수행 cluster.To 하둡에 추가 한 경우 HDFS 클러스터의 균형을 새로운 데이타 노드로 오래된 데이타 노드로부터 블록을 이동하지 않습니다, 당신은 균형을 실행해야합니다.

    균형 프로그램은 이동하여 블록을 재분배 하둡 데몬입니다 충분히 활용하기 위해 사용될 데이타 노드 데이타 노드 위에 다른 랙에 블록 복제본을 배치함으로써 데이터 손실 가능성을 만드는 블록 복제 배치 정책에 부착있다. 클러스터가 평형으로 간주 될 때까지 클러스터에 사용되는 공간 (비 모든 데이터 노드 (노드의 총 용량 노드에 사용 된 공간의 비율)의 이용이 클러스터의 이용 다르다 즉, 블록 이동 주어진 임계 값 비율보다 크지는 클러스터의 전체 용량)에.

    참조 : 하둡 완벽 가이드 제 3 판의 페이지 번호 (350)

    하둡 관리자로서 당신은 하둡 클러스터에서 블록의 균형을 하루에 한 번 밸런스 작업을 예약해야합니다.

    밸런서 관련 유용한 링크 :

    http://www.swiss-scalability.com/2013/08/hadoop-hdfs-balancer-explained.html

    http://www.cloudera.com/content/cloudera/en/documentation/cdh4/latest/CDH4-Installation-Guide/cdh4ig_balancer.html

  2. from https://stackoverflow.com/questions/30873306/data-division-on-addition-of-node-to-distributed-system by cc-by-sa and MIT license