1.6 DirectFileOutputCommitter 스파크

나는 pyspark를 사용하여 S3에 텍스트 파일을 저장하는 데 문제가 있어요. 나는 S3에 저장할 수 있어요,하지만 먼저 S3에 _temporary에 업로드하고 의도 한 위치에 복사로 진행한다. 이 작업은 크게 실행 시간을 증가시킨다. 내가 의도 S3 URL로 직접 작성해야 DirectFileOutputComitter을 컴파일하려고했습니다,하지만 난이 클래스를 활용하는 스파크를 얻을 수 없습니다.

예:

이 만듭니다

다음에 기록되는 디렉토리는 이후 S3의 복사 작업이 다시 파일을 이동

내 질문은 누군가가 DirectFileOutputCommiter의 작업 병이 있는가, 또는 사람이있는 경우 경험은이 문제를 해결 작업.

해결법

==============================
1.나는 Databricks에서 DirectOutputCommitter와 하둡 2.7.2 패치 나의 불꽃 인스턴스에 패치 된 항아리를 배포하여이 문제를 해결 할 수 있었다. 패치 항아리와 자식의 repo는 다음과 같습니다 링크.

나는 Databricks에서 DirectOutputCommitter와 하둡 2.7.2 패치 나의 불꽃 인스턴스에 패치 된 항아리를 배포하여이 문제를 해결 할 수 있었다. 패치 항아리와 자식의 repo는 다음과 같습니다 링크.

Github에서 링크

from https://stackoverflow.com/questions/35209603/spark-1-6-directfileoutputcommitter by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 얻기 java.lang.IllegalArgumentException가 : 시작> 범위 (끝 시작)의 말 : 오류 아래지고, oozie를 사용 Sqoop을 작업을 실행하는 동안 (0)	2019.10.17
[HADOOP] 맵리 듀스 셔플에 대한 암호화 알고리즘을 변경하는 방법 (0)	2019.10.17
[HADOOP] MySQL과 HBase와 연결 (0)	2019.10.17
[HADOOP] InputFormat 결정 (0)	2019.10.17
[HADOOP] 돼지를 사용하여 날짜 형식의 파일을로드 (0)	2019.10.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] 1.6 DirectFileOutputCommitter 스파크

1.6 DirectFileOutputCommitter 스파크

해결법

1.나는 Databricks에서 DirectOutputCommitter와 하둡 2.7.2 패치 나의 불꽃 인스턴스에 패치 된 항아리를 배포하여이 문제를 해결 할 수 있었다. 패치 항아리와 자식의 repo는 다음과 같습니다 링크.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역