복붙노트

[HADOOP] Spark : HDFS의 기존 경로에 RDD 저장

HADOOP

Spark : HDFS의 기존 경로에 RDD 저장

saveAsTextFile 메소드를 사용하여 RDD 출력을 HDFS에 저장할 수 있습니다. 파일 경로가 이미 존재하는 경우이 메서드는 예외를 throw합니다.

HDFS의 기존 파일 경로에 RDDS를 저장해야하는 유스 케이스가 있습니다. 같은 경로에 이미 존재하는 데이터에 새로운 RDD 데이터를 추가하는 방법이 있습니까?

해결법

  1. ==============================

    1.Spark 1.6부터 사용 가능한 한 가지 가능한 솔루션은 텍스트 형식 및 추가 모드가있는 DataFrames를 사용하는 것입니다.

    Spark 1.6부터 사용 가능한 한 가지 가능한 솔루션은 텍스트 형식 및 추가 모드가있는 DataFrames를 사용하는 것입니다.

    val outputPath: String = ???
    
    rdd.map(_.toString).toDF.write.mode("append").text(outputPath)
    
  2. from https://stackoverflow.com/questions/38663536/spark-saving-rdd-in-an-already-existing-path-in-hdfs by cc-by-sa and MIT license