복붙노트

[HADOOP] 원사 개념 이해에 촉발

HADOOP

원사 개념 이해에 촉발

YARN 클러스터 / 클라이언트에서 스파크가 어떻게 실행되는지 이해하려고합니다. 나는 내 마음 속에 다음과 같은 질문을 가지고있다.

해결법

  1. ==============================

    1.YARN (우리는 HDP 2.2 사용)에서 스파크 작업을 실행 중입니다.

    YARN (우리는 HDP 2.2 사용)에서 스파크 작업을 실행 중입니다.

    우리는 클러스터에 스파크를 설치하지 않았습니다. Spark 어셈블리 병을 HDFS에만 추가했습니다.

    예를 들어 Pi 예제를 실행하려면 다음을 수행하십시오.

    ./bin/spark-submit \
      --verbose \
      --class org.apache.spark.examples.SparkPi \
      --master yarn-cluster \
      --conf spark.yarn.jar=hdfs://master:8020/spark/spark-assembly-1.3.1-hadoop2.6.0.jar \
      --num-executors 2 \
      --driver-memory 512m \
      --executor-memory 512m \
      --executor-cores 4 \
      hdfs://master:8020/spark/spark-examples-1.3.1-hadoop2.6.0.jar 100
    

    --conf spark.yarn.jar = hdfs : // master : 8020 / spark / spark-assembly-1.3.1-hadoop2.6.0.jar -이 설정은 원사에 스파크 어셈블리를 가져 오도록 지시합니다. 그것을 사용하지 않으면 spark-submit을 실행했을 때 jar 파일을 업로드합니다.

    두 번째 질문 : 클라이언트 노드에는 Hadoop이 설치 될 필요가 없습니다. 구성 파일 만 필요합니다. 클러스터에서 클라이언트로 디렉토리를 복사 할 수 있습니다.

  2. ==============================

    2.다른 답변에 추가.

    다른 답변에 추가.

    아니요, 스파크 작업이 YARN (클라이언트 모드 또는 클러스터 모드)로 예약되어있는 경우 독립 실행 형 모드의 경우에만 많은 노드에서 스파크 설치가 필요합니다.

    스파크 앱 배포 모드의 시각화입니다.

    스파크 독립 실행 형 클러스터

    클러스터 모드에서는 드라이버가 Spark Worker 노드 중 하나에 있고 클라이언트 모드에서는 작업을 시작한 시스템 내에 있습니다.

    YARN 클러스터 모드

    YARN 클라이언트 모드

    이 표는 이러한 모드 간의 차이점을 간략하게 보여줍니다.

    사진 출처

    Hadoop 설치는 필수는 아니지만 구성 (전부는 아님)이!!입니다. 게이트웨이 노드라고 부를 수 있습니다. 그것은 두 가지 주된 이유 때문입니다.

    업데이트 : (2017-01-04)

  3. ==============================

    3.1 - 다음과 같은 경우 슬레이브 / 마스터 아키텍처를 시작합니다. 따라서 클러스터에서 spark master와 N spark slave를 설치해야합니다. 독립 실행 형 모드로 스파크를 실행할 수 있습니다. 그러나 원사 아키텍처를 사용하면 몇 가지 이점을 얻을 수 있습니다. 여기에 대한 설명이 있습니다. http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/

    1 - 다음과 같은 경우 슬레이브 / 마스터 아키텍처를 시작합니다. 따라서 클러스터에서 spark master와 N spark slave를 설치해야합니다. 독립 실행 형 모드로 스파크를 실행할 수 있습니다. 그러나 원사 아키텍처를 사용하면 몇 가지 이점을 얻을 수 있습니다. 여기에 대한 설명이 있습니다. http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/

    2 - 예를 들어 원사 또는 HDFS를 사용하려는 경우 필요하지만 이전에 말씀 드렸듯이 독립 실행 형 모드로 실행할 수 있습니다.

  4. from https://stackoverflow.com/questions/24909958/spark-on-yarn-concept-understanding by cc-by-sa and MIT license