복붙노트

[HADOOP] Amazon EMR : 데이터 노드에서 스토리지 구성

HADOOP

Amazon EMR : 데이터 노드에서 스토리지 구성

Amazon EMR을 사용하고 있으며 대부분의 작업을 정상적으로 실행할 수 있습니다. EMR 클러스터 내에서 더 많은 데이터를로드하고 생성하기 시작할 때 문제가 발생합니다. 클러스터에 저장 공간이 부족합니다.

각 데이터 노드는 c1.medium 인스턴스입니다. 여기와 여기의 링크에 따르면 각 데이터 노드에는 350GB의 인스턴스 스토리지가 제공되어야합니다. ElasticMapReduce Slave 보안 그룹을 통해 AWS 콘솔에서 c1.medium 데이터 노드가 실행 중이고 인스턴스 스토어인지 확인할 수있었습니다.

네임 노드에서 hadoop dfsadmin -report를 실행하면 각 데이터 노드에 약 10GB의 스토리지가 있습니다. 이것은 df -h를 실행하여 추가로 확인됩니다.

hadoop@domU-xx-xx-xx-xx-xx:~$ df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/sda1             9.9G  2.6G  6.8G  28% /
tmpfs                 859M     0  859M   0% /lib/init/rw
udev                   10M   52K   10M   1% /dev
tmpfs                 859M  4.0K  859M   1% /dev/shm

전체 350GB 스토리지로 시작하도록 데이터 노드를 구성하려면 어떻게해야합니까? 부트 스트랩 작업을 사용하여이를 수행 할 수있는 방법이 있습니까?

해결법

  1. ==============================

    1.AWS 포럼에서 더 많은 연구와 게시를 한 후 나는 어떤 일이 일어 났는지를 완전히 이해하지 못했지만 해결책을 얻었습니다. 괜찮다면 대답으로 게시 할 것이라고 생각했습니다.

    AWS 포럼에서 더 많은 연구와 게시를 한 후 나는 어떤 일이 일어 났는지를 완전히 이해하지 못했지만 해결책을 얻었습니다. 괜찮다면 대답으로 게시 할 것이라고 생각했습니다.

    AMI 버전 2.0에 버그가 있음을 알았습니다. 물론 내가 사용하려고했던 버전이었습니다. (hadoop 0.20을 기본값으로 설정했기 때문에 2.0으로 전환했습니다.) AMI 버전 2.0의 버그는 32 비트 인스턴스에 인스턴스 스토리지를 마운트하지 못하게하므로 c1.mediums가 시작합니다.

    CLI 도구에서 AMI 버전이 "최신"을 사용하도록 지정하면 문제가 해결되고 각 c1.medium이 적절한 350GB의 스토리지로 시작되었습니다.

    예를 들어

    ./elastic-mapreduce --create --name "Job" --ami-version "latest" --other-options
    

    AMI 및 "최신"사용에 대한 자세한 내용은 여기를 참조하십시오. 현재 "최신"은 AMI 2.0.4로 설정되어 있습니다. AMI 2.0.5는 최신 릴리스이지만 여전히 약간 버그가있는 것 같습니다.

  2. from https://stackoverflow.com/questions/10856190/amazon-emr-configuring-storage-on-data-nodes by cc-by-sa and MIT license