복붙노트

[HADOOP] AWS의 EMR 및 EC2 / Hadoop

HADOOP

AWS의 EMR 및 EC2 / Hadoop

EC2가 더 유연하지만 EMR보다 더 많은 작업을 수행한다는 것을 알고 있습니다. 그러나 비용 측면에서 EC2를 사용하는 경우 EC2 인스턴스에 EBS 볼륨이 연결되어 있어야하지만 AWS는 S3의 데이터 만 스트리밍합니다. 따라서 EMR의 경우 EC2 비용을 지불해야하지만 AWS 계산기의 숫자를 계산하면 EMR이 EC2보다 저렴 해집니다. 내가 틀렸어? 물론 EBS를 사용한 EC2가 더 빠를 수도 있지만 비용이 들까 요?

감사, 매트

해결법

  1. ==============================

    1.EMR은 EC2의 표준 Hadoop에서 찾을 수없는 많은 작업을 수행합니다. 특히 중요한 몇 가지는 다음과 같습니다.

    EMR은 EC2의 표준 Hadoop에서 찾을 수없는 많은 작업을 수행합니다. 특히 중요한 몇 가지는 다음과 같습니다.

    또한 EMR S3 파일 시스템은 Apache Hadoop과 함께 제공되는 표준 파일 시스템보다 빠르고 안정적이라는 것을 알게 될 것입니다. 멀티 파트 업로드를 지원하며 디스크에 먼저 버퍼링하지 않고 S3에 직접 쓰기를 스트리밍합니다. 이에 대한 자세한 내용은 팁 # 5를 참조하십시오.

    또한 EC2를 직접 사용하기로 결정한 경우 노드에 EBS 대신 인스턴스 저장소를 사용하는 것이 좋습니다. Hadoop을위한 EBS의 추가 비용을 지불 할 이유는 없습니다. EMR 클러스터는 모두 인스턴스 스토리지 노드에서도 실행된다는 것을 알 수 있습니다.

  2. ==============================

    2.EMR이 EBS가 아닌 인스턴스 스토어 지원 EC2 인스턴스를 사용하는 것이 맞습니다. 그러나 인스턴스 스토어 기반 인스턴스 생성, AMI 패킹 및 Hadoop 클러스터에 사용하는 것을 막을 수있는 것은 없습니다. EBS를 사용하면 작업량과 빈도에 따라 많은 추가 비용이 들지 않을 수 있습니다. 또한 EMR을 통해 EC2 인스턴스를 사용할 때 추가 비용이 발생합니다.

    EMR이 EBS가 아닌 인스턴스 스토어 지원 EC2 인스턴스를 사용하는 것이 맞습니다. 그러나 인스턴스 스토어 기반 인스턴스 생성, AMI 패킹 및 Hadoop 클러스터에 사용하는 것을 막을 수있는 것은 없습니다. EBS를 사용하면 작업량과 빈도에 따라 많은 추가 비용이 들지 않을 수 있습니다. 또한 EMR을 통해 EC2 인스턴스를 사용할 때 추가 비용이 발생합니다.

    저는 2 년 동안 EMR을 사용해 왔으며 배포 관리 및 업데이트에 시간을 투자 할 필요가 없으므로 서비스를 적극 권장합니다. 워크로드가 EMR (DynamoDB 또는 S3에서 데이터 가져 오기)과 호환되는 경우 EC2 / Hadoop이 아닌 EMR로 이동합니다.

  3. from https://stackoverflow.com/questions/19129440/emr-vs-ec2-hadoop-on-aws by cc-by-sa and MIT license