복붙노트

[HADOOP] Spark 프로그램의 HDFS 복제 요소를 어떻게 변경합니까?

HADOOP

Spark 프로그램의 HDFS 복제 요소를 어떻게 변경합니까?

Spark 프로그램의 HDFS 복제 요소를 3에서 1로 변경해야합니다. 검색하는 동안 "spark.hadoop.dfs.replication"속성을 찾았지만 https://spark.apache.org/docs/latest/configuration.html을 보면 더 이상 존재하지 않는 것 같습니다. 그렇다면 Spark 프로그램에서 또는 spark-submit을 사용하여 hdfs 복제 요소를 어떻게 변경할 수 있습니까?

해결법

  1. ==============================

    1.HDFDS 구성은 Spark와 관련이 없습니다. 표준 Hadoop 구성 파일을 사용하여 수정할 수 있어야합니다. 특히 hdfs-site.xml :

    HDFDS 구성은 Spark와 관련이 없습니다. 표준 Hadoop 구성 파일을 사용하여 수정할 수 있어야합니다. 특히 hdfs-site.xml :

    <property> 
      <name>dfs.replication<name> 
      <value>3<value> 
    <property>
    

    SparkContext 인스턴스를 사용하여 Hadoop 구성에 액세스 할 수도 있습니다.

    val hconf: org.apache.hadoop.conf.Configuration = spark.sparkContext.hadoopConfiguration
    hconf.setInt("dfs.replication", 3)
    
  2. ==============================

    2.spark 응용 프로그램에서 HDFS의 복제 팩터를 설정하려면 spark.hadoop.dfs.replication을 사용해야합니다. 그러나 왜 https://spark.apache.org/docs/latest/configuration.html에서 찾을 수 없습니까? 해당 링크에만 스파크 특정 구성이 포함되어 있기 때문입니다. 사실, spark.hadoop. *로 시작한 모든 속성은 시작 부분 "spark.haddoop"을 제거하여 Hadoop 속성으로 자동 변환됩니다. https://github.com/apache/spark/blob/d7b1fcf8f0a267322af0592b2cb31f1c8970fb16/core/src/main/scala/org/apache/spark/deploy/SparkHadoopUtil.scala에서 구현 방법을 찾을 수 있습니다.

    spark 응용 프로그램에서 HDFS의 복제 팩터를 설정하려면 spark.hadoop.dfs.replication을 사용해야합니다. 그러나 왜 https://spark.apache.org/docs/latest/configuration.html에서 찾을 수 없습니까? 해당 링크에만 스파크 특정 구성이 포함되어 있기 때문입니다. 사실, spark.hadoop. *로 시작한 모든 속성은 시작 부분 "spark.haddoop"을 제거하여 Hadoop 속성으로 자동 변환됩니다. https://github.com/apache/spark/blob/d7b1fcf8f0a267322af0592b2cb31f1c8970fb16/core/src/main/scala/org/apache/spark/deploy/SparkHadoopUtil.scala에서 구현 방법을 찾을 수 있습니다.

    찾아야 할 방법은 appendSparkHadoopConfigs입니다.

  3. from https://stackoverflow.com/questions/46098118/how-can-i-change-hdfs-replication-factor-for-my-spark-program by cc-by-sa and MIT license