복붙노트

[HADOOP] 1.6 DirectFileOutputCommitter 스파크

HADOOP

1.6 DirectFileOutputCommitter 스파크

나는 pyspark를 사용하여 S3에 텍스트 파일을 저장하는 데 문제가 있어요. 나는 S3에 저장할 수 있어요,하지만 먼저 S3에 _temporary에 업로드하고 의도 한 위치에 복사로 진행한다. 이 작업은 크게 실행 시간을 증가시킨다. 내가 의도 S3 URL로 직접 작성해야 DirectFileOutputComitter을 컴파일하려고했습니다,하지만 난이 클래스를 활용하는 스파크를 얻을 수 없습니다.

예:

이 만듭니다

다음에 기록되는 디렉토리는 이후 S3의 복사 작업이 다시 파일을 이동

내 질문은 누군가가 DirectFileOutputCommiter의 작업 병이 있는가, 또는 사람이있는 경우 경험은이 문제를 해결 작업.

관련 링크 :

해결법

  1. ==============================

    1.나는 Databricks에서 DirectOutputCommitter와 하둡 2.7.2 패치 나의 불꽃 인스턴스에 패치 된 항아리를 배포하여이 문제를 해결 할 수 있었다. 패치 항아리와 자식의 repo는 다음과 같습니다 링크.

    나는 Databricks에서 DirectOutputCommitter와 하둡 2.7.2 패치 나의 불꽃 인스턴스에 패치 된 항아리를 배포하여이 문제를 해결 할 수 있었다. 패치 항아리와 자식의 repo는 다음과 같습니다 링크.

    Github에서 링크

  2. from https://stackoverflow.com/questions/35209603/spark-1-6-directfileoutputcommitter by cc-by-sa and MIT license