복붙노트

[HADOOP] Docker가있는 다중 노드 Hadoop 클러스터

HADOOP

Docker가있는 다중 노드 Hadoop 클러스터

Docker 기반 환경에서 다중 노드 Hadoop 클러스터를 계획 중입니다. 따라서 가볍고 사용하기 쉬운 가상화 된 시스템을 기반으로해야합니다. 현재 아키텍처 (문서에 관한)에는 1 개의 마스터 노드와 3 개의 슬레이브 노드가 포함됩니다. 이 호스트 시스템은 가상화를 위해 HDFS 파일 시스템과 KVM을 사용합니다. 전체 클라우드는 Cloudera 관리자가 관리합니다. 이 클러스터에는 몇 가지 Hadoop 모듈이 설치되어 있습니다. NodeJS 데이터 업로드 서비스도 있습니다. 이번에는 Docker 기반 아키텍처를 만들어야합니다. 나는 몇몇 자습서를 읽고 몇몇 의견이 있고, 또한 열려있는 질문이다.

A. https://github.com/Lewuathe/docker-hadoop-cluster가 내 프로젝트의 좋은 기반이라고 생각하십니까? 나는 공식적인 이미지를 찾았지만 단일 노드이다.

B. 하나의 컨테이너에서이 작업을 수행하려면 시스템 요구 사항이 어떻게 변경됩니까? 이 아키텍처는 다른 위치에서 작동해야하므로 이러한 위치간에 변경 사항을 쉽게 전송할 수 있으므로 좋을 것입니다. 이른바 클론 간의 동기화가 중요합니다.

C. 다른 아이디어가 있습니까, 아마도 모범 사례입니까?

해결법

  1. ==============================

    1.2016 년 9 월 현재 빠른 답변이 없습니다.

    2016 년 9 월 현재 빠른 답변이 없습니다.

    https://github.com/Lewuathe/docker-hadoop-cluster는 좋은 시작처럼 보일 수 없습니다. B 옵션에 보편적이어야합니다.

    https://github.com/sequenceiq/hadoop-docker 및 https://github.com/kiwenlau/hadoop-cluster-docker를 주시하십시오.

  2. ==============================

    2.질문 C.를 해결하려면 BlueData의 소프트웨어 플랫폼을 확인하십시오. http://www.bluedata.com/blog/2015/06/docker-containers-big-data-clusters

    질문 C.를 해결하려면 BlueData의 소프트웨어 플랫폼을 확인하십시오. http://www.bluedata.com/blog/2015/06/docker-containers-big-data-clusters

    Docker 기반 환경에서 다중 노드 Hadoop 클러스터를 실행하도록 설계되었으며 무료 버전을 다운로드 할 수 있습니다 (AWS EC2 인스턴스에서도 실행할 수 있음).

  3. ==============================

    3.이 작업은 이미 실제로 완료되었습니다.

    이 작업은 이미 실제로 완료되었습니다.

    https://hub.docker.com/r/cloudera/clusterdock/

    여기에는 클러스터 관리를위한 선택적 구성 요소 인 Cloudera Manager가 포함 된 미리 패키지화 된 다중 노드 CDH 클러스터가 포함됩니다.

  4. from https://stackoverflow.com/questions/34997832/multi-node-hadoop-cluster-with-docker by cc-by-sa and MIT license