복붙노트

[HADOOP] fs.default.name 또는 HDFS로 S3를 사용하십니까?

HADOOP

fs.default.name 또는 HDFS로 S3를 사용하십니까?

내가 EC2에 하둡 클러스터를 설정 그리고 난은 DFS을 수행하는 방법 궁금하네요. 내 모든 데이터가 S3와 모든 맵에 현재 / 응용 프로그램이 데이터에 액세스 할 S3 파일 경로를 사용 줄일 수 있습니다. 지금은 아마존 EMR이 설치 방법에서 찾고 있었어요 및 각 jobflow를 들어, 네임 노드와 데이타 노드가 설치되어 나타납니다. 지금은 난 그냥 DFS로 S3 (N)를 사용할 수 있다면 정말 그런 식으로해야 할 경우 나 궁금하네요? 이렇게하면 어떤 단점이 있습니다?

감사!

해결법

  1. ==============================

    1.코어를 site.xml 대신 HDFS의 fs.name.default의 S3를 사용하기 위해 양동이를 가리 키도록해야합니다 :

    코어를 site.xml 대신 HDFS의 fs.name.default의 S3를 사용하기 위해 양동이를 가리 키도록해야합니다 :

    <property>
            <name>fs.default.name</name>
            <value>s3n://your-bucket-name</value>
    </property>
    

    S3N 다른 응용 프로그램에서 직접 읽을 수 있기 때문에 당신이 S3N 및 NOT 간단한 S3 구현을 사용하는 것이 좋습니다 :)

    또한, 동일한 코어-site.xml 파일에 다음과 같은 속성을 지정해야합니다 :

    Vs.san.oskrtksk

  2. ==============================

    2.작업의 중간 데이터를 HDFS에 간다, 그래서 그래, 당신은 여전히 ​​네임 노드와 데이타 노드가 필요합니다

    작업의 중간 데이터를 HDFS에 간다, 그래서 그래, 당신은 여전히 ​​네임 노드와 데이타 노드가 필요합니다

  3. ==============================

    3.https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/core-default.xml

    https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/core-default.xml

    fs.default.name는 사용되지 않으며 어쩌면 fs.defaultFS이 더 좋다.

  4. ==============================

    4.내가 사용하는 작업 S3 통합을 얻을 수있었습니다

    내가 사용하는 작업 S3 통합을 얻을 수있었습니다

    <property>
            <name>fs.default.name</name>
            <value>s3n://your-bucket-name</value>
    </property> 
    

    코어-site.xml 파일에 사령부는 네임 노드와 별도의 데이터 노드 구성을해야한다 HDFS의 LS를 사용하여 얻을 파일의 목록을 얻을, 사촌은 여전히 ​​데이터가 데이터 노드에 분할됩니다 방법을 잘하지 않았다.

    우리는 네임 노드와 데이터 노드에 대한 로컬 저장소를해야합니까?

  5. from https://stackoverflow.com/questions/6271222/using-s3-as-fs-default-name-or-hdfs by cc-by-sa and MIT license