[HADOOP] Dataproc 클러스터 시작시 파이썬 라이브러리를 자동으로 설치하려면 어떻게해야합니까?
HADOOPDataproc 클러스터 시작시 파이썬 라이브러리를 자동으로 설치하려면 어떻게해야합니까?
클러스터가 시작될 때 어떻게 Dataproc 클러스터에 파이썬 라이브러리를 자동으로 설치할 수 있습니까? 이것은 필자가 필요로하는 라이브러리를 수동으로 설치하기 위해 수동으로 마스터 및 / 또는 작업자 노드에 로그인하는 번거 로움을 덜어줍니다.
이 자동 설치가 작업자가 아닌 마스터에만 설치 될 수 있는지 여부를 알면 좋습니다.
해결법
-
==============================
1.초기화 작업이이를 수행하는 가장 좋은 방법입니다. 초기화 조치는 클러스터 작성시 실행되는 쉘 스크립트입니다. 이렇게하면 Python 라이브러리 설치와 같이 클러스터를 사용자 정의 할 수 있습니다. 이 스크립트는 Google Cloud Storage에 저장해야하며 Google Cloud SDK 또는 Google Developers Console을 통해 클러스터를 만들 때 사용할 수 있습니다.
초기화 작업이이를 수행하는 가장 좋은 방법입니다. 초기화 조치는 클러스터 작성시 실행되는 쉘 스크립트입니다. 이렇게하면 Python 라이브러리 설치와 같이 클러스터를 사용자 정의 할 수 있습니다. 이 스크립트는 Google Cloud Storage에 저장해야하며 Google Cloud SDK 또는 Google Developers Console을 통해 클러스터를 만들 때 사용할 수 있습니다.
다음은 마스터 노드에서만 클러스터 생성시 Python pandas를 설치하는 샘플 초기화 작업입니다.
#!/bin/sh ROLE=$(/usr/share/google/get_metadata_value attributes/role) if [[ "${ROLE}" == 'Master' ]]; then apt-get install python-pandas -y fi
이 스크립트에서 볼 수 있듯이 / usr / share / google / get_metadata_value 속성 / 역할을 가진 노드의 역할을 식별 한 다음 마스터 (또는 작업자) 노드에 대해 특별히 작업을 수행하는 것이 가능합니다.
자세한 내용은 Google Cloud Dataproc 문서를 참조하십시오.
from https://stackoverflow.com/questions/32745868/how-do-i-install-python-libraries-automatically-on-dataproc-cluster-startup by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Hadoop 다중 입력 (0) | 2019.06.23 |
---|---|
[HADOOP] Hive 1.1.0 테이블 파티션 유형을 int에서 string으로 변경합니다. (0) | 2019.06.23 |
[HADOOP] Hadoop Streaming을 LZO 압축 시퀀스 파일과 함께 사용하는 방법? (0) | 2019.06.23 |
[HADOOP] 스파크 + 하둡 데이터 지역 (0) | 2019.06.23 |
[HADOOP] 지도 축소 작업이지도에서 멈춤 0 % 감소 0 % (0) | 2019.06.23 |