복붙노트

[HADOOP] 공기 흐름 및 스파크 / 하둡 - 고유 클러스터 또는 공기 흐름에 대한 하나 스파크 / 하둡에 대한 다른

HADOOP

공기 흐름 및 스파크 / 하둡 - 고유 클러스터 또는 공기 흐름에 대한 하나 스파크 / 하둡에 대한 다른

나는 공기 흐름 및 스파크 / 하둡 작업을하는 가장 좋은 방법 인 알아 내려고 노력하고있어. 나는 이미 스파크 / 하둡 클러스터가 및 I / 하둡 클러스터 스파크 원격으로 작업을 제출 공기 흐름을 위해 다른 클러스터를 만드는 방법에 대해 생각하고 있어요.

그것에 대해 어떤 조언을? 또 다른 클러스터에서 원격으로 불꽃을 배포하는 데 조금 복잡하고 일부 파일 구성 중복을 만들 것 같은데.

해결법

  1. ==============================

    1.작업 --master 실 --deploy 모드 클라이언트를 스파크 제출을 위해 당신은 정말만을 위해, 내가 믿는, 원사-site.xml의 파일을 구성해야합니다. (당신은 클러스터 배포 모드를 시도해 볼 수도 있습니다,하지만 난 나쁜 생각은 공기 흐름에 의해 관리되는 드라이버를하지 갖는 생각)

    작업 --master 실 --deploy 모드 클라이언트를 스파크 제출을 위해 당신은 정말만을 위해, 내가 믿는, 원사-site.xml의 파일을 구성해야합니다. (당신은 클러스터 배포 모드를 시도해 볼 수도 있습니다,하지만 난 나쁜 생각은 공기 흐름에 의해 관리되는 드라이버를하지 갖는 생각)

    응용 프로그램 마스터는 원사 내에 배포되면, 다음 하둡 클러스터에 로컬로 실행되는 스파크.

    당신이 정말로 원하는 경우 (즉, 가능하다면) 당신은 공기 흐름에서뿐만 아니라 제출하는 HDFS-site.xml 파일 및 하이브-site.xml 파일을 추가 할 수 있지만, 그렇지 않으면 적어도 HDFS-site.xml 파일에 파일은 YARN에서 포착해야 컨테이너 클래스 경로 (모든 NodeManagers 그들에 설치된 하이브 클라이언트를 가질 수있다)

  2. ==============================

    2.나는 스파크 채용 SSHOperator를 사용하여 복사 / 붙여 넣기 원사-site.xml 파일에서 당신을 절약 할 명령을 스파크가 제출 실행을 제출 선호합니다. 나는 스파크 작업을 실행하는 수행 할 수있는 유일한 작업, LocalExecutor 단일 VM이 괜찮을 경우 또한, 나는 공기 흐름을위한 클러스터를 작성하지 않을 것입니다.

    나는 스파크 채용 SSHOperator를 사용하여 복사 / 붙여 넣기 원사-site.xml 파일에서 당신을 절약 할 명령을 스파크가 제출 실행을 제출 선호합니다. 나는 스파크 작업을 실행하는 수행 할 수있는 유일한 작업, LocalExecutor 단일 VM이 괜찮을 경우 또한, 나는 공기 흐름을위한 클러스터를 작성하지 않을 것입니다.

  3. ==============================

    3.원격으로 공기 흐름을 통해 스파크가 제출 수행하기위한 다양한 옵션이 있습니다.

    원격으로 공기 흐름을 통해 스파크가 제출 수행하기위한 다양한 옵션이 있습니다.

    이들 중 어느 것도 유의하지 마십시오 플러그 앤 플레이이고, 당신이 일을 끝낼 자신 만의 운영자를 작성해야합니다.

  4. from https://stackoverflow.com/questions/52013087/airflow-and-spark-hadoop-unique-cluster-or-one-for-airflow-and-other-for-spark by cc-by-sa and MIT license