[HADOOP] fs.default.name 또는 HDFS로 S3를 사용하십니까?
HADOOPfs.default.name 또는 HDFS로 S3를 사용하십니까?
내가 EC2에 하둡 클러스터를 설정 그리고 난은 DFS을 수행하는 방법 궁금하네요. 내 모든 데이터가 S3와 모든 맵에 현재 / 응용 프로그램이 데이터에 액세스 할 S3 파일 경로를 사용 줄일 수 있습니다. 지금은 아마존 EMR이 설치 방법에서 찾고 있었어요 및 각 jobflow를 들어, 네임 노드와 데이타 노드가 설치되어 나타납니다. 지금은 난 그냥 DFS로 S3 (N)를 사용할 수 있다면 정말 그런 식으로해야 할 경우 나 궁금하네요? 이렇게하면 어떤 단점이 있습니다?
감사!
해결법
-
==============================
1.코어를 site.xml 대신 HDFS의 fs.name.default의 S3를 사용하기 위해 양동이를 가리 키도록해야합니다 :
코어를 site.xml 대신 HDFS의 fs.name.default의 S3를 사용하기 위해 양동이를 가리 키도록해야합니다 :
<property> <name>fs.default.name</name> <value>s3n://your-bucket-name</value> </property>
S3N 다른 응용 프로그램에서 직접 읽을 수 있기 때문에 당신이 S3N 및 NOT 간단한 S3 구현을 사용하는 것이 좋습니다 :)
또한, 동일한 코어-site.xml 파일에 다음과 같은 속성을 지정해야합니다 :
Vs.san.oskrtksk
-
==============================
2.작업의 중간 데이터를 HDFS에 간다, 그래서 그래, 당신은 여전히 네임 노드와 데이타 노드가 필요합니다
작업의 중간 데이터를 HDFS에 간다, 그래서 그래, 당신은 여전히 네임 노드와 데이타 노드가 필요합니다
-
==============================
3.https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/core-default.xml
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/core-default.xml
fs.default.name는 사용되지 않으며 어쩌면 fs.defaultFS이 더 좋다.
-
==============================
4.내가 사용하는 작업 S3 통합을 얻을 수있었습니다
내가 사용하는 작업 S3 통합을 얻을 수있었습니다
<property> <name>fs.default.name</name> <value>s3n://your-bucket-name</value> </property>
코어-site.xml 파일에 사령부는 네임 노드와 별도의 데이터 노드 구성을해야한다 HDFS의 LS를 사용하여 얻을 파일의 목록을 얻을, 사촌은 여전히 데이터가 데이터 노드에 분할됩니다 방법을 잘하지 않았다.
우리는 네임 노드와 데이터 노드에 대한 로컬 저장소를해야합니까?
from https://stackoverflow.com/questions/6271222/using-s3-as-fs-default-name-or-hdfs by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] - 스파크 제출 연결할 수 없습니다 (0) | 2019.09.19 |
---|---|
[HADOOP] 여러 HBase를 테이블에 쓰기, 어떻게 context.write 사용합니까 (HKEY을 넣어)? (0) | 2019.09.19 |
[HADOOP] 하둡 감속기의 네이티브 라이브러리를로드? (0) | 2019.09.19 |
[HADOOP] 하둡 마스터는 다른 $의 HADOOP_HOME와 슬레이브를 시작할 수 없습니다 (0) | 2019.09.19 |
[HADOOP] 어떻게 매퍼 출력 바이트 카운터를 얻을 수 있습니다 (0) | 2019.09.19 |