복붙노트

[HADOOP] Dataproc 클러스터 시작시 파이썬 라이브러리를 자동으로 설치하려면 어떻게해야합니까?

HADOOP

Dataproc 클러스터 시작시 파이썬 라이브러리를 자동으로 설치하려면 어떻게해야합니까?

클러스터가 시작될 때 어떻게 Dataproc 클러스터에 파이썬 라이브러리를 자동으로 설치할 수 있습니까? 이것은 필자가 필요로하는 라이브러리를 수동으로 설치하기 위해 수동으로 마스터 및 / 또는 작업자 노드에 로그인하는 번거 로움을 덜어줍니다.

이 자동 설치가 작업자가 아닌 마스터에만 설치 될 수 있는지 여부를 알면 좋습니다.

해결법

  1. ==============================

    1.초기화 작업이이를 수행하는 가장 좋은 방법입니다. 초기화 조치는 클러스터 작성시 실행되는 쉘 스크립트입니다. 이렇게하면 Python 라이브러리 설치와 같이 클러스터를 사용자 정의 할 수 있습니다. 이 스크립트는 Google Cloud Storage에 저장해야하며 Google Cloud SDK 또는 Google Developers Console을 통해 클러스터를 만들 때 사용할 수 있습니다.

    초기화 작업이이를 수행하는 가장 좋은 방법입니다. 초기화 조치는 클러스터 작성시 실행되는 쉘 스크립트입니다. 이렇게하면 Python 라이브러리 설치와 같이 클러스터를 사용자 정의 할 수 있습니다. 이 스크립트는 Google Cloud Storage에 저장해야하며 Google Cloud SDK 또는 Google Developers Console을 통해 클러스터를 만들 때 사용할 수 있습니다.

    다음은 마스터 노드에서만 클러스터 생성시 Python pandas를 설치하는 샘플 초기화 작업입니다.

    #!/bin/sh
    ROLE=$(/usr/share/google/get_metadata_value attributes/role)
    if [[ "${ROLE}" == 'Master' ]]; then 
      apt-get install python-pandas -y
    fi
    

    이 스크립트에서 볼 수 있듯이 / usr / share / google / get_metadata_value 속성 / 역할을 가진 노드의 역할을 식별 한 다음 마스터 (또는 작업자) 노드에 대해 특별히 작업을 수행하는 것이 가능합니다.

    자세한 내용은 Google Cloud Dataproc 문서를 참조하십시오.

  2. from https://stackoverflow.com/questions/32745868/how-do-i-install-python-libraries-automatically-on-dataproc-cluster-startup by cc-by-sa and MIT license