[HADOOP] 1.6 DirectFileOutputCommitter 스파크
HADOOP1.6 DirectFileOutputCommitter 스파크
나는 pyspark를 사용하여 S3에 텍스트 파일을 저장하는 데 문제가 있어요. 나는 S3에 저장할 수 있어요,하지만 먼저 S3에 _temporary에 업로드하고 의도 한 위치에 복사로 진행한다. 이 작업은 크게 실행 시간을 증가시킨다. 내가 의도 S3 URL로 직접 작성해야 DirectFileOutputComitter을 컴파일하려고했습니다,하지만 난이 클래스를 활용하는 스파크를 얻을 수 없습니다.
예:
이 만듭니다
다음에 기록되는 디렉토리는 이후 S3의 복사 작업이 다시 파일을 이동
내 질문은 누군가가 DirectFileOutputCommiter의 작업 병이 있는가, 또는 사람이있는 경우 경험은이 문제를 해결 작업.
관련 링크 :
해결법
-
==============================
1.나는 Databricks에서 DirectOutputCommitter와 하둡 2.7.2 패치 나의 불꽃 인스턴스에 패치 된 항아리를 배포하여이 문제를 해결 할 수 있었다. 패치 항아리와 자식의 repo는 다음과 같습니다 링크.
나는 Databricks에서 DirectOutputCommitter와 하둡 2.7.2 패치 나의 불꽃 인스턴스에 패치 된 항아리를 배포하여이 문제를 해결 할 수 있었다. 패치 항아리와 자식의 repo는 다음과 같습니다 링크.
Github에서 링크
from https://stackoverflow.com/questions/35209603/spark-1-6-directfileoutputcommitter by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 얻기 java.lang.IllegalArgumentException가 : 시작> 범위 (끝 시작)의 말 : 오류 아래지고, oozie를 사용 Sqoop을 작업을 실행하는 동안 (0) | 2019.10.17 |
---|---|
[HADOOP] 맵리 듀스 셔플에 대한 암호화 알고리즘을 변경하는 방법 (0) | 2019.10.17 |
[HADOOP] MySQL과 HBase와 연결 (0) | 2019.10.17 |
[HADOOP] InputFormat 결정 (0) | 2019.10.17 |
[HADOOP] 돼지를 사용하여 날짜 형식의 파일을로드 (0) | 2019.10.17 |