[HADOOP] Spark : HDFS의 기존 경로에 RDD 저장
HADOOPSpark : HDFS의 기존 경로에 RDD 저장
saveAsTextFile 메소드를 사용하여 RDD 출력을 HDFS에 저장할 수 있습니다. 파일 경로가 이미 존재하는 경우이 메서드는 예외를 throw합니다.
HDFS의 기존 파일 경로에 RDDS를 저장해야하는 유스 케이스가 있습니다. 같은 경로에 이미 존재하는 데이터에 새로운 RDD 데이터를 추가하는 방법이 있습니까?
해결법
-
==============================
1.Spark 1.6부터 사용 가능한 한 가지 가능한 솔루션은 텍스트 형식 및 추가 모드가있는 DataFrames를 사용하는 것입니다.
Spark 1.6부터 사용 가능한 한 가지 가능한 솔루션은 텍스트 형식 및 추가 모드가있는 DataFrames를 사용하는 것입니다.
val outputPath: String = ??? rdd.map(_.toString).toDF.write.mode("append").text(outputPath)
from https://stackoverflow.com/questions/38663536/spark-saving-rdd-in-an-already-existing-path-in-hdfs by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] HIVE에서 두 테이블을 결합하는 법. (0) | 2019.06.30 |
---|---|
[HADOOP] 하이브에 데이터베이스를 만드는 동안 사용 권한이 거부되었습니다. (0) | 2019.06.30 |
[HADOOP] PySpark 설치 오류 (0) | 2019.06.30 |
[HADOOP] hadoop 스트리밍을위한 분할 자 지정 방법 (0) | 2019.06.30 |
[HADOOP] pod에서 ssh를 사용할 수 있습니까? (0) | 2019.06.30 |