복붙노트

[HADOOP] 스파크 제출 문제

HADOOP

스파크 제출 문제

Spark 제출을 사용하여 Spark 클러스터에서 뚱뚱한 항아리를 실행하려고합니다. AWS의 Spark 번들에서 "spark-ec2"실행 파일을 사용하여 클러스터를 만들었습니다.

jar 파일을 실행하는 데 사용하는 명령은

bin/spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big-data-hw2-assembly-1.0.jar

처음에는 HADOOP_CONF_DIR 또는 YARN_CONF_DIR 환경 변수 중 하나 이상을 설정해야한다는 오류가 발생했습니다. 무엇을 설정해야할지 몰랐으므로 다음 명령을 사용했습니다.

export HADOOP_CONF_DIR=/mapreduce/conf

이제 오류가

Could not load YARN classes. This copy of Spark may not have been compiled with YARN support.
Run with --help for usage help or --verbose for debug output

홈 디렉토리 구조는 다음과 같습니다.

ephemeral-hdfs  hadoop-native  mapreduce  persistent-hdfs  scala  spark  spark-ec2  src1  tachyon

YARN_CONF_DIR 변수를 HADOOP_CONF_DIR과 동일한 값으로 설정했지만 오류 메시지가 변경되지 않습니다. 이 문제를 강조하는 문서를 찾을 수 없으며 대부분이 두 변수를 언급하고 더 자세한 내용은 제공하지 않습니다.

해결법

  1. ==============================

    1.Yarn에 대해 spark를 컴파일하여 사용해야합니다.

    Yarn에 대해 spark를 컴파일하여 사용해야합니다.

    https://spark.apache.org/docs/latest/building-spark.html에 설명 된 단계를 따르십시오.

    메이븐 :

    build/mvn -Pyarn -Phadoop-2.x -Dhadoop.version=2.x.x -DskipTests clean package
    

    SBT :

    build/sbt -Pyarn -Phadoop-2.x assembly
    

    http://spark.apache.org/downloads.html ( "사전 빌드 된 Hadoop"선택)에서 사전 컴파일 된 버전을 다운로드 할 수도 있습니다.

  2. ==============================

    2.https://spark.apache.org/downloads.html에서 hadoop 2.X 버전을 지원하는 사전 빌드 된 spark를 다운로드하십시오.

    https://spark.apache.org/downloads.html에서 hadoop 2.X 버전을 지원하는 사전 빌드 된 spark를 다운로드하십시오.

  3. ==============================

    3.--master 인수는 다음과 같아야합니다. --master spark : // hostname : 7077 여기서 hostname은 Spark 마스터 서버의 이름입니다. spark-defaults.conf 파일에서이 값을 spark.master로 지정하고 명령 줄에서 Spark 제출을 사용할 때 --master 인수를 생략 할 수도 있습니다. --master 인수를 포함하면 spark-defaults.conf 파일에 설정된 값 (있는 경우)을 무시합니다.

    --master 인수는 다음과 같아야합니다. --master spark : // hostname : 7077 여기서 hostname은 Spark 마스터 서버의 이름입니다. spark-defaults.conf 파일에서이 값을 spark.master로 지정하고 명령 줄에서 Spark 제출을 사용할 때 --master 인수를 생략 할 수도 있습니다. --master 인수를 포함하면 spark-defaults.conf 파일에 설정된 값 (있는 경우)을 무시합니다.

    참조 : http://spark.apache.org/docs/1.3.0/configuration.html

  4. from https://stackoverflow.com/questions/29585307/spark-submit-issue by cc-by-sa and MIT license