스파크 제출 문제

Spark 제출을 사용하여 Spark 클러스터에서 뚱뚱한 항아리를 실행하려고합니다. AWS의 Spark 번들에서 "spark-ec2"실행 파일을 사용하여 클러스터를 만들었습니다.

jar 파일을 실행하는 데 사용하는 명령은

bin/spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big-data-hw2-assembly-1.0.jar

처음에는 HADOOP_CONF_DIR 또는 YARN_CONF_DIR 환경 변수 중 하나 이상을 설정해야한다는 오류가 발생했습니다. 무엇을 설정해야할지 몰랐으므로 다음 명령을 사용했습니다.

export HADOOP_CONF_DIR=/mapreduce/conf

이제 오류가

Could not load YARN classes. This copy of Spark may not have been compiled with YARN support.
Run with --help for usage help or --verbose for debug output

홈 디렉토리 구조는 다음과 같습니다.

ephemeral-hdfs  hadoop-native  mapreduce  persistent-hdfs  scala  spark  spark-ec2  src1  tachyon

YARN_CONF_DIR 변수를 HADOOP_CONF_DIR과 동일한 값으로 설정했지만 오류 메시지가 변경되지 않습니다. 이 문제를 강조하는 문서를 찾을 수 없으며 대부분이 두 변수를 언급하고 더 자세한 내용은 제공하지 않습니다.

해결법

==============================
1.Yarn에 대해 spark를 컴파일하여 사용해야합니다.

Yarn에 대해 spark를 컴파일하여 사용해야합니다.

https://spark.apache.org/docs/latest/building-spark.html에 설명 된 단계를 따르십시오.

메이븐 :
```
build/mvn -Pyarn -Phadoop-2.x -Dhadoop.version=2.x.x -DskipTests clean package
```
SBT :
```
build/sbt -Pyarn -Phadoop-2.x assembly
```
http://spark.apache.org/downloads.html ( "사전 빌드 된 Hadoop"선택)에서 사전 컴파일 된 버전을 다운로드 할 수도 있습니다.
==============================
2.https://spark.apache.org/downloads.html에서 hadoop 2.X 버전을 지원하는 사전 빌드 된 spark를 다운로드하십시오.

https://spark.apache.org/downloads.html에서 hadoop 2.X 버전을 지원하는 사전 빌드 된 spark를 다운로드하십시오.
==============================
3.--master 인수는 다음과 같아야합니다. --master spark : // hostname : 7077 여기서 hostname은 Spark 마스터 서버의 이름입니다. spark-defaults.conf 파일에서이 값을 spark.master로 지정하고 명령 줄에서 Spark 제출을 사용할 때 --master 인수를 생략 할 수도 있습니다. --master 인수를 포함하면 spark-defaults.conf 파일에 설정된 값 (있는 경우)을 무시합니다.

--master 인수는 다음과 같아야합니다. --master spark : // hostname : 7077 여기서 hostname은 Spark 마스터 서버의 이름입니다. spark-defaults.conf 파일에서이 값을 spark.master로 지정하고 명령 줄에서 Spark 제출을 사용할 때 --master 인수를 생략 할 수도 있습니다. --master 인수를 포함하면 spark-defaults.conf 파일에 설정된 값 (있는 경우)을 무시합니다.

참조 : http://spark.apache.org/docs/1.3.0/configuration.html

from https://stackoverflow.com/questions/29585307/spark-submit-issue by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 이 기사의 맥락에서“데이터의 로컬 캐싱”은 무엇을 의미합니까? (0)	2019.08.10
[HADOOP] 클래스 경로에서 hive-site.xml을 찾을 수 없음 (0)	2019.08.10
[HADOOP] Spark 1.3.0 : YARN에서 Pi 예제 실행 실패 (0)	2019.08.10
[HADOOP] yarn.log.dir은 어디에 정의되어 있습니까? (0)	2019.08.10
[HADOOP] Java의 mapreduce-gzip 입력 파일 (0)	2019.08.10

복붙노트

[HADOOP] 스파크 제출 문제

스파크 제출 문제

해결법

1.Yarn에 대해 spark를 컴파일하여 사용해야합니다.

2.https://spark.apache.org/downloads.html에서 hadoop 2.X 버전을 지원하는 사전 빌드 된 spark를 다운로드하십시오.

'HADOOP' 카테고리의 다른 글

티스토리툴바