[HADOOP] Spark 프로그램의 HDFS 복제 요소를 어떻게 변경합니까?
HADOOPSpark 프로그램의 HDFS 복제 요소를 어떻게 변경합니까?
Spark 프로그램의 HDFS 복제 요소를 3에서 1로 변경해야합니다. 검색하는 동안 "spark.hadoop.dfs.replication"속성을 찾았지만 https://spark.apache.org/docs/latest/configuration.html을 보면 더 이상 존재하지 않는 것 같습니다. 그렇다면 Spark 프로그램에서 또는 spark-submit을 사용하여 hdfs 복제 요소를 어떻게 변경할 수 있습니까?
해결법
-
==============================
1.HDFDS 구성은 Spark와 관련이 없습니다. 표준 Hadoop 구성 파일을 사용하여 수정할 수 있어야합니다. 특히 hdfs-site.xml :
HDFDS 구성은 Spark와 관련이 없습니다. 표준 Hadoop 구성 파일을 사용하여 수정할 수 있어야합니다. 특히 hdfs-site.xml :
<property> <name>dfs.replication<name> <value>3<value> <property>
SparkContext 인스턴스를 사용하여 Hadoop 구성에 액세스 할 수도 있습니다.
val hconf: org.apache.hadoop.conf.Configuration = spark.sparkContext.hadoopConfiguration hconf.setInt("dfs.replication", 3)
-
==============================
2.spark 응용 프로그램에서 HDFS의 복제 팩터를 설정하려면 spark.hadoop.dfs.replication을 사용해야합니다. 그러나 왜 https://spark.apache.org/docs/latest/configuration.html에서 찾을 수 없습니까? 해당 링크에만 스파크 특정 구성이 포함되어 있기 때문입니다. 사실, spark.hadoop. *로 시작한 모든 속성은 시작 부분 "spark.haddoop"을 제거하여 Hadoop 속성으로 자동 변환됩니다. https://github.com/apache/spark/blob/d7b1fcf8f0a267322af0592b2cb31f1c8970fb16/core/src/main/scala/org/apache/spark/deploy/SparkHadoopUtil.scala에서 구현 방법을 찾을 수 있습니다.
spark 응용 프로그램에서 HDFS의 복제 팩터를 설정하려면 spark.hadoop.dfs.replication을 사용해야합니다. 그러나 왜 https://spark.apache.org/docs/latest/configuration.html에서 찾을 수 없습니까? 해당 링크에만 스파크 특정 구성이 포함되어 있기 때문입니다. 사실, spark.hadoop. *로 시작한 모든 속성은 시작 부분 "spark.haddoop"을 제거하여 Hadoop 속성으로 자동 변환됩니다. https://github.com/apache/spark/blob/d7b1fcf8f0a267322af0592b2cb31f1c8970fb16/core/src/main/scala/org/apache/spark/deploy/SparkHadoopUtil.scala에서 구현 방법을 찾을 수 있습니다.
찾아야 할 방법은 appendSparkHadoopConfigs입니다.
from https://stackoverflow.com/questions/46098118/how-can-i-change-hdfs-replication-factor-for-my-spark-program by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] java.io.IOException : LocateBlock의 블록 길이를 얻을 수 없습니다 (0) | 2019.08.17 |
---|---|
[HADOOP] 하이브 : 구성 설정 병합이 작동하지 않습니다 (0) | 2019.08.16 |
[HADOOP] Hive의 정규 표현식에서 여러 일치 항목 처리 (0) | 2019.08.16 |
[HADOOP] Python을 통해 HDFS에서 여러 파일 처리 (0) | 2019.08.16 |
[HADOOP] 임팔라 : schemata가 다른 여러 개의 마루 파일을 쿼리하는 방법 (0) | 2019.08.16 |