복붙노트

[HADOOP] 파이썬 제출 오류 스파크 : 파일이 존재하지 않습니다 pyspark.zip를

HADOOP

파이썬 제출 오류 스파크 : 파일이 존재하지 않습니다 pyspark.zip를

나는 실 클러스터 모드에 파이썬 스파크 신청서를 제출하기 위해 노력하고있어.

Seq(System.getenv("SPARK_HOME")+"/bin/spark-submit","--master",sparkConfig.getString("spark.master"),"--executor-memory",sparkConfig.getString("spark.executor-memory"),"--num-executors",sparkConfig.getString("spark.num-executors"),"python/app.py") ! 

나는 다음과 같은 오류를 받고 있어요

내가 찾은 https://issues.apache.org/jira/browse/SPARK-10795

그러나 티켓은 여전히 ​​열려 있습니다!

해결법

  1. ==============================

    1.스칼라 작업과 내 경험에 난 코드 어딘가에 ( "로컬") setMaster하려고 할 때 실 클러스터 클러스터 모드는이 오류를주는 것을 보았다. 로컬 "마스터"를 설정에 대한 참조를 제거하려고하십시오.

    스칼라 작업과 내 경험에 난 코드 어딘가에 ( "로컬") setMaster하려고 할 때 실 클러스터 클러스터 모드는이 오류를주는 것을 보았다. 로컬 "마스터"를 설정에 대한 참조를 제거하려고하십시오.

    다시 말하지만, 내 대답은 스칼라 동작을 기반으로하지만, 희망이 도움이됩니다.

  2. ==============================

    2.이것은 당신이 배포 모드 "클러스터"로 작업을 불꽃 제출하려고하고 "지역"으로 마스터를 설정하려고 할 때 발생; 예를 들면

    이것은 당신이 배포 모드 "클러스터"로 작업을 불꽃 제출하려고하고 "지역"으로 마스터를 설정하려고 할 때 발생; 예를 들면

    val sparkConf = new SparkConf().setAppName("spark-pi-app").setMaster("local[10]");
    

    당신은 두 가지 옵션이 있습니다 : 옵션 1: 위의 라인을 변경 :

    val sparkConf = new SparkConf().setAppName("spark-pi-app");
    

    그리고 귀하의 작업을 제출

    ./bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 512m --executor-memory 512m --executor-cores 1 --num-executors 3 --jars hadoop-common-{version}.jar,hadoop-lzo-{version}.jar --verbose --queue hadoop-queue --class "SparkPi" sparksbtproject_2.11-1.0.jar
    

    옵션 # 2 : "클라이언트"로 배포 모드로 작업을 제출

    ./bin/spark-submit --master yarn --deploy-mode client --driver-memory 512m --executor-memory 512m --executor-cores 1 --num-executors 3 --jars hadoop-common-{version}.jar,hadoop-lzo-{version}.jar --verbose --queue hadoop-queue --class "SparkPi" sparksbtproject_2.11-1.0.jar
    
  3. ==============================

    3.당신은 적절한 스파크 컨텍스트를 만드는 데 실패하고 있는가? 나는이 문제를 의심. 또한 https://issues.apache.org/jira/browse/SPARK-10795 업데이트 한

    당신은 적절한 스파크 컨텍스트를 만드는 데 실패하고 있는가? 나는이 문제를 의심. 또한 https://issues.apache.org/jira/browse/SPARK-10795 업데이트 한

  4. ==============================

    4.실-site.xml을 HDFS 이름 노드 속성을 추가하십시오 :

    실-site.xml을 HDFS 이름 노드 속성을 추가하십시오 :

    <property>
      <name>fs.defaultFS</name>
      <value>hdfs://your-name-hode-host-port:8989</value>
    </property>
    

    원사를 site.xml의 디렉토리에 그 YARN_CONF_DIR의 ENV 변수 포인트를 확인

  5. ==============================

    5.여기 https://stackoverflow.com/a/55457870/3357812이 대답했다. 나를 위해, 키는 spark.hadoop.fs.defaultFS 파이썬 내부 SparkConf 설정해야합니다이었다.

    여기 https://stackoverflow.com/a/55457870/3357812이 대답했다. 나를 위해, 키는 spark.hadoop.fs.defaultFS 파이썬 내부 SparkConf 설정해야합니다이었다.

    yarn_conf = SparkConf().setAppName(_app_name) \
                        .setMaster("yarn") \
                        .set("spark.executor.memory", "4g") \
                        .set("spark.hadoop.fs.defaultFS", "hdfs://{}:8020".format(_fs_host)) \
                        .set("spark.hadoop.yarn.resourcemanager.hostname", _rm_host)\
                        .set("spark.hadoop.yarn.resourcemanager.address", "{}:8050".format(_rm_host))
    
  6. from https://stackoverflow.com/questions/34632617/spark-python-submission-error-file-does-not-exist-pyspark-zip by cc-by-sa and MIT license