[HADOOP] Dataproc에서 클러스터를 만들 때보고 데이타 노드 불충분 한 수
HADOOPDataproc에서 클러스터를 만들 때보고 데이타 노드 불충분 한 수
// 기본 FS로 : 나는 GS와 Dataproc에서 클러스터를 만들 때 오류 "를보고 데이타 노드 불충분 한 수"를 얻고있다. 아래는 내가 통해 Dataproc 클러스터를 사용하고있는 명령입니다.
gcloud dataproc clusters create cluster-538f --image-version 1.2 \
--bucket dataproc_bucket_test --subnet default --zone asia-south1-b \
--master-machine-type n1-standard-1 --master-boot-disk-size 500 \
--num-workers 2 --worker-machine-type n1-standard-1 --worker-boot-disk-size 500 \
--scopes 'https://www.googleapis.com/auth/cloud-platform' --project delcure-firebase \
--properties 'core:fs.default.name=gs://dataproc_bucket_test/'
나는 확인하고 내가 사용하고있는 버킷이 bucker에서 기본 폴더를 만들 수 있음을 확인.
해결법
-
==============================
1.이고르 알 수 있듯이 통해 Dataproc는 기본 FS로 GCS를 지원하지 않습니다. 또한이 속성을 해제하기 좋습니다. 그 fs.default.name 속성은 개별 작업에 전달 될 수 있고 잘 작동합니다 유의하십시오.
이고르 알 수 있듯이 통해 Dataproc는 기본 FS로 GCS를 지원하지 않습니다. 또한이 속성을 해제하기 좋습니다. 그 fs.default.name 속성은 개별 작업에 전달 될 수 있고 잘 작동합니다 유의하십시오.
-
==============================
2.이 오류는 파일 시스템 (HdfsClientModule) 액세스 할 수 있도록 시도 할 때 발생한다. 그래서, 나는 Google 클라우드 스토리지는 하둡에 필요한 특정 기능이없는 가능성이 생각하고 일부 폴더 (첫번째 이미지) 생성 된 후 작성은 실패합니다.
이 오류는 파일 시스템 (HdfsClientModule) 액세스 할 수 있도록 시도 할 때 발생한다. 그래서, 나는 Google 클라우드 스토리지는 하둡에 필요한 특정 기능이없는 가능성이 생각하고 일부 폴더 (첫번째 이미지) 생성 된 후 작성은 실패합니다.
누군가가 다른 사람 앞에서 언급 한 바와 같이, 기본 FS로 GCS를 사용하는 아이디어를 포기하고 통해 Dataproc에서 HDFS에게 일을두고하는 것이 좋습니다. 그럼에도 불구하고, 당신은 여전히 클러스터가 종료 될 때 HDFS에 데이터가 제거되었는지 기억 때문에 데이터 지속성, 안정성 및 성능을 위해 클라우드 스토리지를 활용할 수 있습니다.
1 .- 통해 Dataproc 노드에서 당신은 예를 들어, 입력 및 출력 데이터를 이동하기 위해 하둡 명령을 통해 데이터에 액세스 할 수 있습니다 :
hadoop fs -ls gs://CONFIGBUCKET/dir/file hadoop distcp hdfs://OtherNameNode/dir/ gs://CONFIGBUCKET/dir/file
버킷에 액세스 할 수 : // 접두사 스파크 또는 하둡 응용 프로그램에서 데이터를 액세스하기위한 2 .- 그냥 GS를 사용합니다.
통해 Dataproc 커넥터가 구내에 설치되어있는 경우 또한, 클라우드 스토리지에 HDFS 데이터를 이동 한 후 통해 Dataproc 클러스터에서 액세스하는 데 도움이 될 수 있습니다.
from https://stackoverflow.com/questions/52248139/insufficient-number-of-datanodes-reporting-when-creating-dataproc-cluster by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 어떻게 .lzo_deflat 파일을 디코딩 할 수? (0) | 2019.10.05 |
---|---|
[HADOOP] 몇 열에 대한 열을 번들 하이브 / SQL은 열 나머지는 풀을 기반으로하는 다른 열 최저 / 최고 (0) | 2019.10.05 |
[HADOOP] 하이브 이전 타임 스탬프에서 일의 차이를 찾기 (0) | 2019.10.05 |
[HADOOP] 왜 RunJar는 jar 파일을 압축 해제합니까? (0) | 2019.10.05 |
[HADOOP] HBase를가 Pyspark를 사용하여 상호 작용하는 최선의 방법은 무엇입니까 (0) | 2019.10.05 |