복붙노트

[HADOOP] 사용 보고서에서 트리플 복제에 대한 HDFS 계정은 어디에 있습니까?

HADOOP

사용 보고서에서 트리플 복제에 대한 HDFS 계정은 어디에 있습니까?

대부분의 Hadoop 배포판의 최신 버전에서 HDFS 사용 보고서는 복제 요소를 고려하지 않은 채 공간에 대해보고 한 것 같습니다. 맞습니까?

네임 노드 웹 UI를 보거나 'hadoop dfsadmin -report'명령을 실행하면 다음과 같은 보고서를 볼 수 있습니다.

Configured Capacity: 247699161084 (230.69 GB)
Present Capacity: 233972113408 (217.9 GB)
DFS Remaining: 162082414592 (150.95 GB)
DFS Used: 71889698816 (66.95 GB)
DFS Used%: 30.73%
Under replicated blocks: 40
Blocks with corrupt replicas: 6
Missing blocks: 0

이 클러스터의 시스템 크기에 따라이 보고서는 트리플 복제를 고려하지 않습니다. I. I. HDFS에 파일을 배치하면 직접 트리플 복제를 고려해야합니다.

예를 들어 HDFS에 50GB 파일을 배치하면 내 HDFS가 위험에 가까운 상태가됩니다 (현재 남아있는 150GB를 사용하여 파일이 3 번 복제 될 것으로 보임).

해결법

  1. ==============================

    1.이 용어들이 의미하는 바를 명확히 정의 해보자.

    이 용어들이 의미하는 바를 명확히 정의 해보자.

    희망이 그것을 지워.

  2. ==============================

    2.dfsadmin 보고서는 복제를 고려합니다. 사전 복제에 사용 된 바이트를 원하면 다음을 사용하십시오.

    dfsadmin 보고서는 복제를 고려합니다. 사전 복제에 사용 된 바이트를 원하면 다음을 사용하십시오.

    hdfs dfs -du -s /
    
  3. from https://stackoverflow.com/questions/17863570/where-does-the-hdfs-account-for-triple-replication-in-usage-reports by cc-by-sa and MIT license