파이썬 제출 오류 스파크 : 파일이 존재하지 않습니다 pyspark.zip를

나는 실 클러스터 모드에 파이썬 스파크 신청서를 제출하기 위해 노력하고있어.

Seq(System.getenv("SPARK_HOME")+"/bin/spark-submit","--master",sparkConfig.getString("spark.master"),"--executor-memory",sparkConfig.getString("spark.executor-memory"),"--num-executors",sparkConfig.getString("spark.num-executors"),"python/app.py") !

나는 다음과 같은 오류를 받고 있어요

내가 찾은 https://issues.apache.org/jira/browse/SPARK-10795

그러나 티켓은 여전히 열려 있습니다!

해결법

==============================
1.스칼라 작업과 내 경험에 난 코드 어딘가에 ( "로컬") setMaster하려고 할 때 실 클러스터 클러스터 모드는이 오류를주는 것을 보았다. 로컬 "마스터"를 설정에 대한 참조를 제거하려고하십시오.

스칼라 작업과 내 경험에 난 코드 어딘가에 ( "로컬") setMaster하려고 할 때 실 클러스터 클러스터 모드는이 오류를주는 것을 보았다. 로컬 "마스터"를 설정에 대한 참조를 제거하려고하십시오.

다시 말하지만, 내 대답은 스칼라 동작을 기반으로하지만, 희망이 도움이됩니다.

==============================

2.이것은 당신이 배포 모드 "클러스터"로 작업을 불꽃 제출하려고하고 "지역"으로 마스터를 설정하려고 할 때 발생; 예를 들면

이것은 당신이 배포 모드 "클러스터"로 작업을 불꽃 제출하려고하고 "지역"으로 마스터를 설정하려고 할 때 발생; 예를 들면

val sparkConf = new SparkConf().setAppName("spark-pi-app").setMaster("local[10]");

당신은 두 가지 옵션이 있습니다 : 옵션 1: 위의 라인을 변경 :

val sparkConf = new SparkConf().setAppName("spark-pi-app");

그리고 귀하의 작업을 제출

./bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 512m --executor-memory 512m --executor-cores 1 --num-executors 3 --jars hadoop-common-{version}.jar,hadoop-lzo-{version}.jar --verbose --queue hadoop-queue --class "SparkPi" sparksbtproject_2.11-1.0.jar

옵션 # 2 : "클라이언트"로 배포 모드로 작업을 제출

./bin/spark-submit --master yarn --deploy-mode client --driver-memory 512m --executor-memory 512m --executor-cores 1 --num-executors 3 --jars hadoop-common-{version}.jar,hadoop-lzo-{version}.jar --verbose --queue hadoop-queue --class "SparkPi" sparksbtproject_2.11-1.0.jar

==============================
3.당신은 적절한 스파크 컨텍스트를 만드는 데 실패하고 있는가? 나는이 문제를 의심. 또한 https://issues.apache.org/jira/browse/SPARK-10795 업데이트 한

당신은 적절한 스파크 컨텍스트를 만드는 데 실패하고 있는가? 나는이 문제를 의심. 또한 https://issues.apache.org/jira/browse/SPARK-10795 업데이트 한
==============================
4.실-site.xml을 HDFS 이름 노드 속성을 추가하십시오 :

실-site.xml을 HDFS 이름 노드 속성을 추가하십시오 :
```
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://your-name-hode-host-port:8989</value>
</property>
```
원사를 site.xml의 디렉토리에 그 YARN_CONF_DIR의 ENV 변수 포인트를 확인

==============================

5.여기 https://stackoverflow.com/a/55457870/3357812이 대답했다. 나를 위해, 키는 spark.hadoop.fs.defaultFS 파이썬 내부 SparkConf 설정해야합니다이었다.

여기 https://stackoverflow.com/a/55457870/3357812이 대답했다. 나를 위해, 키는 spark.hadoop.fs.defaultFS 파이썬 내부 SparkConf 설정해야합니다이었다.

yarn_conf = SparkConf().setAppName(_app_name) \
                    .setMaster("yarn") \
                    .set("spark.executor.memory", "4g") \
                    .set("spark.hadoop.fs.defaultFS", "hdfs://{}:8020".format(_fs_host)) \
                    .set("spark.hadoop.yarn.resourcemanager.hostname", _rm_host)\
                    .set("spark.hadoop.yarn.resourcemanager.address", "{}:8050".format(_rm_host))

from https://stackoverflow.com/questions/34632617/spark-python-submission-error-file-does-not-exist-pyspark-zip by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 자바 코드에서 하이브를 site.xml의 위치를 찾기 (0)	2019.10.19
[HADOOP] 방법) (루프의 텍스트들 사이에서 반복하고 맵리 듀스에서 특정 문자의 수를 찾을 수 (0)	2019.10.19
[HADOOP] 왜 RackAareness의 클래스를 찾을 하둡 수없는 이유는 무엇입니까? (0)	2019.10.19
[HADOOP] 다른 그룹에 데이터 유형에서 비교를 수행 할 때 어떻게 잠재적 인 데이터 손실을 처리하기 위해 (0)	2019.10.19
[HADOOP] 파티션 열 이름이 정확하지 않은 경우 하이브는 모든 파티션을 삭제 (0)	2019.10.19

복붙노트

[HADOOP] 파이썬 제출 오류 스파크 : 파일이 존재하지 않습니다 pyspark.zip를

파이썬 제출 오류 스파크 : 파일이 존재하지 않습니다 pyspark.zip를

해결법

1.스칼라 작업과 내 경험에 난 코드 어딘가에 ( "로컬") setMaster하려고 할 때 실 클러스터 클러스터 모드는이 오류를주는 것을 보았다. 로컬 "마스터"를 설정에 대한 참조를 제거하려고하십시오.

2.이것은 당신이 배포 모드 "클러스터"로 작업을 불꽃 제출하려고하고 "지역"으로 마스터를 설정하려고 할 때 발생; 예를 들면

3.당신은 적절한 스파크 컨텍스트를 만드는 데 실패하고 있는가? 나는이 문제를 의심. 또한 https://issues.apache.org/jira/browse/SPARK-10795 업데이트 한

4.실-site.xml을 HDFS 이름 노드 속성을 추가하십시오 :

5.여기 https://stackoverflow.com/a/55457870/3357812이 대답했다. 나를 위해, 키는 spark.hadoop.fs.defaultFS 파이썬 내부 SparkConf 설정해야합니다이었다.

'HADOOP' 카테고리의 다른 글

티스토리툴바