복붙노트

[HADOOP] Dataproc에서 클러스터를 만들 때보고 데이타 노드 불충분 한 수

HADOOP

Dataproc에서 클러스터를 만들 때보고 데이타 노드 불충분 한 수

// 기본 FS로 : 나는 GS와 Dataproc에서 클러스터를 만들 때 오류 "를보고 데이타 노드 불충분 한 수"를 얻고있다. 아래는 내가 통해 Dataproc 클러스터를 사용하고있는 명령입니다.

gcloud dataproc clusters create cluster-538f --image-version 1.2 \
    --bucket dataproc_bucket_test --subnet default --zone asia-south1-b \
    --master-machine-type n1-standard-1 --master-boot-disk-size 500 \
    --num-workers 2 --worker-machine-type n1-standard-1 --worker-boot-disk-size 500 \
    --scopes 'https://www.googleapis.com/auth/cloud-platform' --project delcure-firebase \
    --properties 'core:fs.default.name=gs://dataproc_bucket_test/'

나는 확인하고 내가 사용하고있는 버킷이 bucker에서 기본 폴더를 만들 수 있음을 확인.

해결법

  1. ==============================

    1.이고르 알 수 있듯이 통해 Dataproc는 기본 FS로 GCS를 지원하지 않습니다. 또한이 속성을 해제하기 좋습니다. 그 fs.default.name 속성은 개별 작업에 전달 될 수 있고 잘 작동합니다 유의하십시오.

    이고르 알 수 있듯이 통해 Dataproc는 기본 FS로 GCS를 지원하지 않습니다. 또한이 속성을 해제하기 좋습니다. 그 fs.default.name 속성은 개별 작업에 전달 될 수 있고 잘 작동합니다 유의하십시오.

  2. ==============================

    2.이 오류는 파일 시스템 (HdfsClientModule) 액세스 할 수 있도록 시도 할 때 발생한다. 그래서, 나는 Google 클라우드 스토리지는 하둡에 필요한 특정 기능이없는 가능성이 생각하고 일부 폴더 (첫번째 이미지) 생성 된 후 작성은 실패합니다.

    이 오류는 파일 시스템 (HdfsClientModule) 액세스 할 수 있도록 시도 할 때 발생한다. 그래서, 나는 Google 클라우드 스토리지는 하둡에 필요한 특정 기능이없는 가능성이 생각하고 일부 폴더 (첫번째 이미지) 생성 된 후 작성은 실패합니다.

    누군가가 다른 사람 앞에서 언급 한 바와 같이, 기본 FS로 GCS를 사용하는 아이디어를 포기하고 통해 Dataproc에서 HDFS에게 일을두고하는 것이 좋습니다. 그럼에도 불구하고, 당신은 여전히 ​​클러스터가 종료 될 때 HDFS에 데이터가 제거되었는지 기억 때문에 데이터 지속성, 안정성 및 성능을 위해 클라우드 스토리지를 활용할 수 있습니다.

    1 .- 통해 Dataproc 노드에서 당신은 예를 들어, 입력 및 출력 데이터를 이동하기 위해 하둡 명령을 통해 데이터에 액세스 할 수 있습니다 :

    hadoop fs -ls gs://CONFIGBUCKET/dir/file 
    
    hadoop distcp hdfs://OtherNameNode/dir/ gs://CONFIGBUCKET/dir/file 
    

    버킷에 액세스 할 수 : // 접두사 스파크 또는 하둡 응용 프로그램에서 데이터를 액세스하기위한 2 .- 그냥 GS를 사용합니다.

    통해 Dataproc 커넥터가 구내에 설치되어있는 경우 또한, 클라우드 스토리지에 HDFS 데이터를 이동 한 후 통해 Dataproc 클러스터에서 액세스하는 데 도움이 될 수 있습니다.

  3. from https://stackoverflow.com/questions/52248139/insufficient-number-of-datanodes-reporting-when-creating-dataproc-cluster by cc-by-sa and MIT license