[HADOOP] Docker가있는 다중 노드 Hadoop 클러스터
HADOOPDocker가있는 다중 노드 Hadoop 클러스터
Docker 기반 환경에서 다중 노드 Hadoop 클러스터를 계획 중입니다. 따라서 가볍고 사용하기 쉬운 가상화 된 시스템을 기반으로해야합니다. 현재 아키텍처 (문서에 관한)에는 1 개의 마스터 노드와 3 개의 슬레이브 노드가 포함됩니다. 이 호스트 시스템은 가상화를 위해 HDFS 파일 시스템과 KVM을 사용합니다. 전체 클라우드는 Cloudera 관리자가 관리합니다. 이 클러스터에는 몇 가지 Hadoop 모듈이 설치되어 있습니다. NodeJS 데이터 업로드 서비스도 있습니다. 이번에는 Docker 기반 아키텍처를 만들어야합니다. 나는 몇몇 자습서를 읽고 몇몇 의견이 있고, 또한 열려있는 질문이다.
A. https://github.com/Lewuathe/docker-hadoop-cluster가 내 프로젝트의 좋은 기반이라고 생각하십니까? 나는 공식적인 이미지를 찾았지만 단일 노드이다.
B. 하나의 컨테이너에서이 작업을 수행하려면 시스템 요구 사항이 어떻게 변경됩니까? 이 아키텍처는 다른 위치에서 작동해야하므로 이러한 위치간에 변경 사항을 쉽게 전송할 수 있으므로 좋을 것입니다. 이른바 클론 간의 동기화가 중요합니다.
C. 다른 아이디어가 있습니까, 아마도 모범 사례입니까?
해결법
-
==============================
1.2016 년 9 월 현재 빠른 답변이 없습니다.
2016 년 9 월 현재 빠른 답변이 없습니다.
https://github.com/Lewuathe/docker-hadoop-cluster는 좋은 시작처럼 보일 수 없습니다. B 옵션에 보편적이어야합니다.
https://github.com/sequenceiq/hadoop-docker 및 https://github.com/kiwenlau/hadoop-cluster-docker를 주시하십시오.
-
==============================
2.질문 C.를 해결하려면 BlueData의 소프트웨어 플랫폼을 확인하십시오. http://www.bluedata.com/blog/2015/06/docker-containers-big-data-clusters
질문 C.를 해결하려면 BlueData의 소프트웨어 플랫폼을 확인하십시오. http://www.bluedata.com/blog/2015/06/docker-containers-big-data-clusters
Docker 기반 환경에서 다중 노드 Hadoop 클러스터를 실행하도록 설계되었으며 무료 버전을 다운로드 할 수 있습니다 (AWS EC2 인스턴스에서도 실행할 수 있음).
-
==============================
3.이 작업은 이미 실제로 완료되었습니다.
이 작업은 이미 실제로 완료되었습니다.
https://hub.docker.com/r/cloudera/clusterdock/
여기에는 클러스터 관리를위한 선택적 구성 요소 인 Cloudera Manager가 포함 된 미리 패키지화 된 다중 노드 CDH 클러스터가 포함됩니다.
from https://stackoverflow.com/questions/34997832/multi-node-hadoop-cluster-with-docker by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 데이터를 복사하지 않고 Hive 테이블로 데이터를 가져올 수 있습니까? (0) | 2019.07.25 |
---|---|
[HADOOP] Windows의 Nutch : 경로의 사용 권한을 설정하지 못했습니다. (0) | 2019.07.25 |
[HADOOP] Hive는 파티션 URL을 보여주기 위해 파티션을 설명합니다. (0) | 2019.07.25 |
[HADOOP] REGEXP_REPLACE 그룹 캡처 (0) | 2019.07.25 |
[HADOOP] Apache Spark에서 Hadoop InputFormats를 사용하는 방법? (0) | 2019.07.25 |