[HADOOP] 스파크 제출 문제
HADOOP스파크 제출 문제
Spark 제출을 사용하여 Spark 클러스터에서 뚱뚱한 항아리를 실행하려고합니다. AWS의 Spark 번들에서 "spark-ec2"실행 파일을 사용하여 클러스터를 만들었습니다.
jar 파일을 실행하는 데 사용하는 명령은
bin/spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big-data-hw2-assembly-1.0.jar
처음에는 HADOOP_CONF_DIR 또는 YARN_CONF_DIR 환경 변수 중 하나 이상을 설정해야한다는 오류가 발생했습니다. 무엇을 설정해야할지 몰랐으므로 다음 명령을 사용했습니다.
export HADOOP_CONF_DIR=/mapreduce/conf
이제 오류가
Could not load YARN classes. This copy of Spark may not have been compiled with YARN support.
Run with --help for usage help or --verbose for debug output
홈 디렉토리 구조는 다음과 같습니다.
ephemeral-hdfs hadoop-native mapreduce persistent-hdfs scala spark spark-ec2 src1 tachyon
YARN_CONF_DIR 변수를 HADOOP_CONF_DIR과 동일한 값으로 설정했지만 오류 메시지가 변경되지 않습니다. 이 문제를 강조하는 문서를 찾을 수 없으며 대부분이 두 변수를 언급하고 더 자세한 내용은 제공하지 않습니다.
해결법
-
==============================
1.Yarn에 대해 spark를 컴파일하여 사용해야합니다.
Yarn에 대해 spark를 컴파일하여 사용해야합니다.
https://spark.apache.org/docs/latest/building-spark.html에 설명 된 단계를 따르십시오.
메이븐 :
build/mvn -Pyarn -Phadoop-2.x -Dhadoop.version=2.x.x -DskipTests clean package
SBT :
build/sbt -Pyarn -Phadoop-2.x assembly
http://spark.apache.org/downloads.html ( "사전 빌드 된 Hadoop"선택)에서 사전 컴파일 된 버전을 다운로드 할 수도 있습니다.
-
==============================
2.https://spark.apache.org/downloads.html에서 hadoop 2.X 버전을 지원하는 사전 빌드 된 spark를 다운로드하십시오.
https://spark.apache.org/downloads.html에서 hadoop 2.X 버전을 지원하는 사전 빌드 된 spark를 다운로드하십시오.
-
==============================
3.--master 인수는 다음과 같아야합니다. --master spark : // hostname : 7077 여기서 hostname은 Spark 마스터 서버의 이름입니다. spark-defaults.conf 파일에서이 값을 spark.master로 지정하고 명령 줄에서 Spark 제출을 사용할 때 --master 인수를 생략 할 수도 있습니다. --master 인수를 포함하면 spark-defaults.conf 파일에 설정된 값 (있는 경우)을 무시합니다.
--master 인수는 다음과 같아야합니다. --master spark : // hostname : 7077 여기서 hostname은 Spark 마스터 서버의 이름입니다. spark-defaults.conf 파일에서이 값을 spark.master로 지정하고 명령 줄에서 Spark 제출을 사용할 때 --master 인수를 생략 할 수도 있습니다. --master 인수를 포함하면 spark-defaults.conf 파일에 설정된 값 (있는 경우)을 무시합니다.
참조 : http://spark.apache.org/docs/1.3.0/configuration.html
from https://stackoverflow.com/questions/29585307/spark-submit-issue by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 이 기사의 맥락에서“데이터의 로컬 캐싱”은 무엇을 의미합니까? (0) | 2019.08.10 |
---|---|
[HADOOP] 클래스 경로에서 hive-site.xml을 찾을 수 없음 (0) | 2019.08.10 |
[HADOOP] Spark 1.3.0 : YARN에서 Pi 예제 실행 실패 (0) | 2019.08.10 |
[HADOOP] yarn.log.dir은 어디에 정의되어 있습니까? (0) | 2019.08.10 |
[HADOOP] Java의 mapreduce-gzip 입력 파일 (0) | 2019.08.10 |