Dataproc에서 클러스터를 만들 때보고 데이타 노드 불충분 한 수

// 기본 FS로 : 나는 GS와 Dataproc에서 클러스터를 만들 때 오류 "를보고 데이타 노드 불충분 한 수"를 얻고있다. 아래는 내가 통해 Dataproc 클러스터를 사용하고있는 명령입니다.

gcloud dataproc clusters create cluster-538f --image-version 1.2 \
    --bucket dataproc_bucket_test --subnet default --zone asia-south1-b \
    --master-machine-type n1-standard-1 --master-boot-disk-size 500 \
    --num-workers 2 --worker-machine-type n1-standard-1 --worker-boot-disk-size 500 \
    --scopes 'https://www.googleapis.com/auth/cloud-platform' --project delcure-firebase \
    --properties 'core:fs.default.name=gs://dataproc_bucket_test/'

나는 확인하고 내가 사용하고있는 버킷이 bucker에서 기본 폴더를 만들 수 있음을 확인.

해결법

==============================
1.이고르 알 수 있듯이 통해 Dataproc는 기본 FS로 GCS를 지원하지 않습니다. 또한이 속성을 해제하기 좋습니다. 그 fs.default.name 속성은 개별 작업에 전달 될 수 있고 잘 작동합니다 유의하십시오.

이고르 알 수 있듯이 통해 Dataproc는 기본 FS로 GCS를 지원하지 않습니다. 또한이 속성을 해제하기 좋습니다. 그 fs.default.name 속성은 개별 작업에 전달 될 수 있고 잘 작동합니다 유의하십시오.
==============================
2.이 오류는 파일 시스템 (HdfsClientModule) 액세스 할 수 있도록 시도 할 때 발생한다. 그래서, 나는 Google 클라우드 스토리지는 하둡에 필요한 특정 기능이없는 가능성이 생각하고 일부 폴더 (첫번째 이미지) 생성 된 후 작성은 실패합니다.

이 오류는 파일 시스템 (HdfsClientModule) 액세스 할 수 있도록 시도 할 때 발생한다. 그래서, 나는 Google 클라우드 스토리지는 하둡에 필요한 특정 기능이없는 가능성이 생각하고 일부 폴더 (첫번째 이미지) 생성 된 후 작성은 실패합니다.

누군가가 다른 사람 앞에서 언급 한 바와 같이, 기본 FS로 GCS를 사용하는 아이디어를 포기하고 통해 Dataproc에서 HDFS에게 일을두고하는 것이 좋습니다. 그럼에도 불구하고, 당신은 여전히 클러스터가 종료 될 때 HDFS에 데이터가 제거되었는지 기억 때문에 데이터 지속성, 안정성 및 성능을 위해 클라우드 스토리지를 활용할 수 있습니다.

1 .- 통해 Dataproc 노드에서 당신은 예를 들어, 입력 및 출력 데이터를 이동하기 위해 하둡 명령을 통해 데이터에 액세스 할 수 있습니다 :
```
hadoop fs -ls gs://CONFIGBUCKET/dir/file 

hadoop distcp hdfs://OtherNameNode/dir/ gs://CONFIGBUCKET/dir/file 
```
버킷에 액세스 할 수 : // 접두사 스파크 또는 하둡 응용 프로그램에서 데이터를 액세스하기위한 2 .- 그냥 GS를 사용합니다.

통해 Dataproc 커넥터가 구내에 설치되어있는 경우 또한, 클라우드 스토리지에 HDFS 데이터를 이동 한 후 통해 Dataproc 클러스터에서 액세스하는 데 도움이 될 수 있습니다.

from https://stackoverflow.com/questions/52248139/insufficient-number-of-datanodes-reporting-when-creating-dataproc-cluster by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 어떻게 .lzo_deflat 파일을 디코딩 할 수? (0)	2019.10.05
[HADOOP] 몇 열에 대한 열을 번들 하이브 / SQL은 열 나머지는 풀을 기반으로하는 다른 열 최저 / 최고 (0)	2019.10.05
[HADOOP] 하이브 이전 타임 스탬프에서 일의 차이를 찾기 (0)	2019.10.05
[HADOOP] 왜 RunJar는 jar 파일을 압축 해제합니까? (0)	2019.10.05
[HADOOP] HBase를가 Pyspark를 사용하여 상호 작용하는 최선의 방법은 무엇입니까 (0)	2019.10.05

복붙노트

[HADOOP] Dataproc에서 클러스터를 만들 때보고 데이타 노드 불충분 한 수

Dataproc에서 클러스터를 만들 때보고 데이타 노드 불충분 한 수

해결법

1.이고르 알 수 있듯이 통해 Dataproc는 기본 FS로 GCS를 지원하지 않습니다. 또한이 속성을 해제하기 좋습니다. 그 fs.default.name 속성은 개별 작업에 전달 될 수 있고 잘 작동합니다 유의하십시오.

'HADOOP' 카테고리의 다른 글

티스토리툴바