Hadoop dfs 복제

죄송합니다. 그냥 간단한 질문이지만 Google에 정확한 질문을 찾을 수 없습니다. dfs.replication의 의미는 무엇입니까? hdfs에 filmdata.txt라는 파일 하나를 만든 경우 dfs.replication = 1로 설정하면 파일 하나 (filmdata.txt)가 하나입니까? 아니면 주 파일 (filmdata.txt) 외에 hadoop이 다른 복제 파일을 생성합니까? . 간단히 말하면 : dfs.replication = 1로 설정하면, 하나의 filmdata.txt 또는 두 개의 filmdata.txt가 있습니다. 미리 감사드립니다.

해결법

==============================
1.파일 시스템의 총 파일 수는 dfs.replication 요소에 지정된 수입니다. 따라서 dfs.replication = 1로 설정하면 파일 시스템에 파일 복사본이 하나만 존재하게됩니다.

파일 시스템의 총 파일 수는 dfs.replication 요소에 지정된 수입니다. 따라서 dfs.replication = 1로 설정하면 파일 시스템에 파일 복사본이 하나만 존재하게됩니다.

다른 구성 매개 변수에 대해서는 Apache Documentation을 확인하십시오.
==============================
2.데이터의 가용성을 높이기 위해 Hadoop은 데이터를 복제합니다.

데이터의 가용성을 높이기 위해 Hadoop은 데이터를 복제합니다.

파일을 HDFS에 저장할 때 hadoop 프레임 워크는 파일을 블록 집합 (64MB 또는 128MB)으로 분할 한 다음이 블록을 클러스터 노드 전체에 복제합니다. 구성 dfs.replication은 필요한 복제 수를 지정하는 것입니다 .

dfs.replication의 기본값은 3이지만 클러스터 설정에 따라 구성 가능합니다.

희망이 도움이됩니다.
==============================
3.Praveen이 제공 한 링크가 깨졌습니다. 다음은 dfs.replication 매개 변수를 설명하는 업데이트 된 링크입니다.

Praveen이 제공 한 링크가 깨졌습니다. 다음은 dfs.replication 매개 변수를 설명하는 업데이트 된 링크입니다.

Hadoop Cluster Setup을 참조하십시오. 구성 매개 변수에 대한 자세한 정보는 다음을 참조하십시오.

파일은 여러 블록에 걸쳐있을 수 있으며 각 블록은 dfs.replication에 지정된 횟수만큼 복제됩니다 (기본값은 3). 이러한 블록의 크기는 dfs.block.size 매개 변수에 지정됩니다.
==============================
4.HDFS 프레임 워크에서 우리는 상용 컴퓨터를 사용하여 데이터를 저장합니다. 이러한 상용 컴퓨터는 RAM이 높은 서버와 같은 고급 컴퓨터가 아니며 데이터 노드 (d1, d2, d3) 또는 블록 (b1 HDFS 프레임 워크는 각 데이터 블록 (64MB, 128MB)을 세 개의 복제본 (기본값)으로 분할하고 각 블록을 별도의 데이터 노드 (d1, d2, d3)에 저장합니다. 블록 (b1)의 복사본이 데이터 노드 (d2)와 데이터 노드 (d3)에서 사용 가능하므로 클라이언트가 데이터 노드 (d2)를 요청할 수 있도록 데이터 노드 (d1)에서 블록 (b1) )를 사용하여 블록 (b1) 데이터를 처리하고 결과를 제공하고 데이터 노드 (d2)가 클라이언트가 데이터 블록 (b1) 데이터를 처리하기 위해 데이터 노드 (d3)를 요청할 수없는 것처럼 처리합니다. 이것을 -dfs.replication mean이라고합니다.

HDFS 프레임 워크에서 우리는 상용 컴퓨터를 사용하여 데이터를 저장합니다. 이러한 상용 컴퓨터는 RAM이 높은 서버와 같은 고급 컴퓨터가 아니며 데이터 노드 (d1, d2, d3) 또는 블록 (b1 HDFS 프레임 워크는 각 데이터 블록 (64MB, 128MB)을 세 개의 복제본 (기본값)으로 분할하고 각 블록을 별도의 데이터 노드 (d1, d2, d3)에 저장합니다. 블록 (b1)의 복사본이 데이터 노드 (d2)와 데이터 노드 (d3)에서 사용 가능하므로 클라이언트가 데이터 노드 (d2)를 요청할 수 있도록 데이터 노드 (d1)에서 블록 (b1) )를 사용하여 블록 (b1) 데이터를 처리하고 결과를 제공하고 데이터 노드 (d2)가 클라이언트가 데이터 블록 (b1) 데이터를 처리하기 위해 데이터 노드 (d3)를 요청할 수없는 것처럼 처리합니다. 이것을 -dfs.replication mean이라고합니다.

희망을 좀 분명히 해 줘.

from https://stackoverflow.com/questions/12835396/hadoop-dfs-replicate by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] ArrayWritable을 사용한 직렬화가 재미있는 방식으로 작동하는 것 같습니다. (0)	2019.06.19
[HADOOP] Hive 컴파일러가 생성 한 MapReduce 작업 소스 코드는 어떻게 얻을 수 있습니까? (0)	2019.06.19
[HADOOP] Spio 작업이 java.io.NotSerializableException 때문에 실패했습니다 : org.apache.spark.SparkContext (0)	2019.06.18
[HADOOP] HBase에서 스트리밍되는 Hadoop mapreduce (0)	2019.06.18
[HADOOP] 하이브 테이블의 count (*)에 대한 잘못된 결과 (0)	2019.06.18

복붙노트

[HADOOP] Hadoop dfs 복제

Hadoop dfs 복제

해결법

1.파일 시스템의 총 파일 수는 dfs.replication 요소에 지정된 수입니다. 따라서 dfs.replication = 1로 설정하면 파일 시스템에 파일 복사본이 하나만 존재하게됩니다.

2.데이터의 가용성을 높이기 위해 Hadoop은 데이터를 복제합니다.

3.Praveen이 제공 한 링크가 깨졌습니다. 다음은 dfs.replication 매개 변수를 설명하는 업데이트 된 링크입니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바