[HADOOP] HDFS 복제 - 데이터 저장
HADOOPHDFS 복제 - 데이터 저장
나는 hadoop에 상대적으로 초보자이며 HDFS에서 복제가 어떻게 작동하는지 더 잘 이해하고자합니다.
10 노드 시스템 (각 노드에 1TB)이 있으며 총 용량은 10TB입니다. 복제 계수가 3 인 경우 각 파일에 대해 원본 복사본 1 개와 복제본 3 개가 있습니다. 본질적으로 내 스토리지의 25 %만이 원래 데이터입니다. 따라서 10TB 클러스터는 원래 2.5TB의 복제되지 않은 데이터 만 유효합니다.
제 생각의 기차가 맞는지 알려주세요.
해결법
-
==============================
1.너의 생각은 좀 이상하다. 복제 계수 3은 데이터의 총 복사본이 3 개라는 것을 의미합니다. 더 구체적으로 말하자면 파일마다 각 블록의 사본이 3 개있을 것입니다. 따라서 파일이 10 개의 블록으로 구성되어 있다면 10 개의 노드에 총 30 개의 블록이 있거나 노드 당 약 3 개의 블록이 있습니다.
너의 생각은 좀 이상하다. 복제 계수 3은 데이터의 총 복사본이 3 개라는 것을 의미합니다. 더 구체적으로 말하자면 파일마다 각 블록의 사본이 3 개있을 것입니다. 따라서 파일이 10 개의 블록으로 구성되어 있다면 10 개의 노드에 총 30 개의 블록이 있거나 노드 당 약 3 개의 블록이 있습니다.
10x1TB 클러스터의 용량이 10TB보다 작고 복제 계수가 3 인 경우, 실제로는 약 3.3TB의 기능 용량을 가지며, 처리를 수행하는 데 필요한 공간 때문에 실제 용량이 약간 줄어들고 임시적으로 유지됩니다 파일 등
from https://stackoverflow.com/questions/9708298/hdfs-replication-data-stored by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Hadoop 작업 : "execvp : permission denied" (0) | 2019.06.22 |
---|---|
[HADOOP] Spark에서 NLineInputFormat이 작동하지 않습니다. (0) | 2019.06.22 |
[HADOOP] Spark : sc.WholeTextFiles는 실행하는 데 오랜 시간이 걸립니다. (0) | 2019.06.22 |
[HADOOP] 하이브 조인 최적화 (0) | 2019.06.21 |
[HADOOP] 어떻게하면 hdfs에서 java로 새로운 디렉토리를 만들 수 있습니까? (0) | 2019.06.21 |