[HADOOP] 노드 추가 후 hadoop 및 hbase 재조정
HADOOP노드 추가 후 hadoop 및 hbase 재조정
로드 밸런서에 대한 기본적인 질문이 있습니다. 방금 hbase v0.98을 가진 hadoop (2.3) 클러스터에 새 노드를 추가했습니다. 추가와 hadoop과 hbase에서 온라인으로 모든 노드를 가지면,
해결법
-
==============================
1.HBase의 데이터 지역은 복구됩니다. 압축이 발생할 때마다 모든 블록이 해당 영역을 서비스하는 regionserver에 로컬로 복사되고 병합됩니다. 이 시점에서 해당 지역의 데이터 지역이 복구됩니다. 이를 통해 새로운 노드를 클러스터에 추가하기 만하면됩니다. Hbase는 지역의 재조정을 처리하고, 일단 이러한 지역의 컴팩트 한 데이터 지역이 복원됩니다.
HBase의 데이터 지역은 복구됩니다. 압축이 발생할 때마다 모든 블록이 해당 영역을 서비스하는 regionserver에 로컬로 복사되고 병합됩니다. 이 시점에서 해당 지역의 데이터 지역이 복구됩니다. 이를 통해 새로운 노드를 클러스터에 추가하기 만하면됩니다. Hbase는 지역의 재조정을 처리하고, 일단 이러한 지역의 컴팩트 한 데이터 지역이 복원됩니다.
-
==============================
2.Hadoop은 기본적으로 블록 레벨 밸런싱을 수행하지 않습니다. Hadoop에서 수동으로 분산하는 데 사용할 수있는 몇 가지 도구, 즉 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/CommandsManual.html#balancer가 있습니다. 방금 HDFS의 밸런싱은 완전히 비어 있거나 새로운 노드의 수가 적어서 실제로 완전히 클러스터에 추가 한 경우 실제로는 상당히 비쌉니다. 그 경험은 HDFS 블록의 밸런싱 작업 만 수행한다는 것입니다 . 밸런서를 여러 번 실행하면 전체 균형을 향상시킬 수 있습니다. 또한 Hadoop에 내장 된 것보다 더 나은 밸런싱 작업을 수행 할 수있는 몇 가지 대안 구현이 있습니다.
Hadoop은 기본적으로 블록 레벨 밸런싱을 수행하지 않습니다. Hadoop에서 수동으로 분산하는 데 사용할 수있는 몇 가지 도구, 즉 https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/CommandsManual.html#balancer가 있습니다. 방금 HDFS의 밸런싱은 완전히 비어 있거나 새로운 노드의 수가 적어서 실제로 완전히 클러스터에 추가 한 경우 실제로는 상당히 비쌉니다. 그 경험은 HDFS 블록의 밸런싱 작업 만 수행한다는 것입니다 . 밸런서를 여러 번 실행하면 전체 균형을 향상시킬 수 있습니다. 또한 Hadoop에 내장 된 것보다 더 나은 밸런싱 작업을 수행 할 수있는 몇 가지 대안 구현이 있습니다.
"Live Nodes"링크를 클릭하면 HDFS NameNode UI에서 블록의 균형을 검사 할 수 있습니다. "Block Pool Used"열은이 목적으로 유용한 열입니다. 다양한 시스템에서 사용되는 블록 비율의 편차가 큰 경우 HDFS 클러스터의 균형을 조정해야 할 수 있습니다.
balancer_switch는 regionserver 균형에만 영향을줍니다. HBase는 기본적으로 클러스터의 지역 균형을 자동으로 조정하지만 hbase 셸에서 언제든지 수동으로 밸런서를 실행할 수 있습니다.
"Load"라는 열의 "Region Servers"섹션 아래 HBase 마스터 UI의 기본 페이지에서 지역 균형을 검사 할 수 있으며 "numberOfOnlineRegions"라는 값이 있습니다. 일반적으로 HBase는 이러한 균형을 유지하는 데 매우 효과적입니다. 처음에는 기본 밸런싱 알고리즘이 비뚤어진 영역 세트로 구성되는 테이블을 처음 만들었을 때만 몇 번 보았습니다. 그럼에도 불구하고, 지역 균형자는 실제로 상당히 싸며 아주 빨리 완료 될 수 있습니다. 한 번 실행하면 매우 균형 잡힌 상태로 들어갈 수 있습니다.
from https://stackoverflow.com/questions/23686387/hadoop-and-hbase-rebalancing-after-node-additions by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Apache Spark YARN 모드 시작에 너무 오래 걸립니다 (10 초 이상). (0) | 2019.07.09 |
---|---|
[HADOOP] HDFS 복제 계수 (0) | 2019.07.09 |
[HADOOP] Flume과 Sqoop의 차이점은 무엇입니까? (0) | 2019.07.09 |
[HADOOP] Hadoop 데몬이 실행 중인지 확인하는 방법? (0) | 2019.07.09 |
[HADOOP] 어떻게 리눅스에서 hdfs의 슈퍼 그룹에 사용자를 추가하려면? [닫은] (0) | 2019.07.09 |