복붙노트

[HADOOP] 다른 하나 개의 클러스터에서 전체 HDFS 전송

HADOOP

다른 하나 개의 클러스터에서 전체 HDFS 전송

나는 5 개 노드와 테스트 클러스터 내 HDFS에 저장된 하이브 테이블 많이 있습니다. 데이터는 약 70 기가 3 * (Replipication)이어야한다. 아니, 난 더 많은 노드와 다른 환경에 전체 설치를 전송합니다. 두 클러스터 간의 네트워크 연결은 불가능합니다.

문제는 내가 다른 테스트 환경과로 사례 연결 테스트 할 수있는 새로운 클러스터도없는 가능성과 많은 시간을 가지고 있겠지이다. 그러므로 나는 확고한 계획이 필요합니다. :)

내가 어떤 옵션이 있습니까?

어떻게 새 클러스터에 구성 최소한의 노력으로 하이브 설정을 전송할 수 있습니까?

그냥 다음 새 클러스터에 노드의 나머지 부분을 추가, 새로운 클러스터의 5 개 노드에 5 개 노드의 HDFS 디렉토리를 복사하고 균형을 시작 할 수 있습니까?

해결법

  1. ==============================

    1.네트워크에 연결하지 않고, 그것은 까다로운 일이 될 것입니다!

    네트워크에 연결하지 않고, 그것은 까다로운 일이 될 것입니다!

    나는 것

    이, 더 중요한 것은, 소유권과 권한을 파일 생성 / 마지막 액세스 시간과 같은 메타 데이터를 보존하지 않습니다.

    이 과정의 소규모 테스트는 아주 간단해야한다.

    당신이 두 클러스터 사이에 (심지어 일시적으로) 네트워크 연결을 얻을 수 있다면, distcp 갈 방법이 될 것입니다. 이지도는 잠재적으로 엄청난 시간 절약의 결과로, 전송을 parallelise을 줄일 사용합니다.

  2. ==============================

    2.당신은 다른 사용하여 하둡 distcp 명령에 하나 개의 클러스터에서 디렉토리와 파일을 복사 할 수 있습니다

    당신은 다른 사용하여 하둡 distcp 명령에 하나 개의 클러스터에서 디렉토리와 파일을 복사 할 수 있습니다

    여기에 그 사용법을 설명하는 간단한 예제입니다

    http://souravgulati.webs.com/apps/forums/topics/show/8534378-hadoop-copy-files-from-one-hadoop-cluster-to-other-hadoop-cluster

  3. ==============================

    3.이 명령을 사용하여 데이터를 복사 할 수 있습니다 : sudo는 -u HDFS의 하둡 --config {PathtotheVpcCluster} / vpcCluster distcp HDFS : //의 SourceIP : 8020 / 사용자 / HDFS / WholeData HDFS : //의 DestinationIP : 8020 / 사용자 / HDFS / WholeData

    이 명령을 사용하여 데이터를 복사 할 수 있습니다 : sudo는 -u HDFS의 하둡 --config {PathtotheVpcCluster} / vpcCluster distcp HDFS : //의 SourceIP : 8020 / 사용자 / HDFS / WholeData HDFS : //의 DestinationIP : 8020 / 사용자 / HDFS / WholeData

  4. from https://stackoverflow.com/questions/14276313/transferring-whole-hdfs-from-one-cluster-to-another by cc-by-sa and MIT license