복붙노트

[HADOOP] HDFS 복제 - 데이터 저장

HADOOP

HDFS 복제 - 데이터 저장

나는 hadoop에 상대적으로 초보자이며 HDFS에서 복제가 어떻게 작동하는지 더 잘 이해하고자합니다.

10 노드 시스템 (각 노드에 1TB)이 있으며 총 용량은 10TB입니다. 복제 계수가 3 인 경우 각 파일에 대해 원본 복사본 1 개와 복제본 3 개가 있습니다. 본질적으로 내 스토리지의 25 %만이 원래 데이터입니다. 따라서 10TB 클러스터는 원래 2.5TB의 복제되지 않은 데이터 만 유효합니다.

제 생각의 기차가 맞는지 알려주세요.

해결법

  1. ==============================

    1.너의 생각은 좀 이상하다. 복제 계수 3은 데이터의 총 복사본이 3 개라는 것을 의미합니다. 더 구체적으로 말하자면 파일마다 각 블록의 사본이 3 개있을 것입니다. 따라서 파일이 10 개의 블록으로 구성되어 있다면 10 개의 노드에 총 30 개의 블록이 있거나 노드 당 약 3 개의 블록이 있습니다.

    너의 생각은 좀 이상하다. 복제 계수 3은 데이터의 총 복사본이 3 개라는 것을 의미합니다. 더 구체적으로 말하자면 파일마다 각 블록의 사본이 3 개있을 것입니다. 따라서 파일이 10 개의 블록으로 구성되어 있다면 10 개의 노드에 총 30 개의 블록이 있거나 노드 당 약 3 개의 블록이 있습니다.

    10x1TB 클러스터의 용량이 10TB보다 작고 복제 계수가 3 인 경우, 실제로는 약 3.3TB의 기능 용량을 가지며, 처리를 수행하는 데 필요한 공간 때문에 실제 용량이 약간 줄어들고 임시적으로 유지됩니다 파일 등

  2. from https://stackoverflow.com/questions/9708298/hdfs-replication-data-stored by cc-by-sa and MIT license