복붙노트

[HADOOP] HDFS에서 모든 스파크 집행자의 로컬 작업 디렉토리로 파일 복사 (구성)

HADOOP

HDFS에서 모든 스파크 집행자의 로컬 작업 디렉토리로 파일 복사 (구성)

파일을 가진 폴더를 HDFS에서 Java를 사용하는 각 스파크 실행 프로그램의 로컬 작업 디렉토리로 복사하는 방법을 모색 중입니다.

처음에는 spark-submit의 --files FILES 옵션을 사용하려고했지만 임의의 중첩 파일 폴더를 지원하지 않는 것으로 보입니다. 따라서이 폴더를 공유 HDFS 경로에 두어 작업을 실행하기 전에 각각의 실행자가 작업 디렉토리에 올바르게 복사 할 수 있지만 자바 코드에서 올바르게 수행하는 방법을 찾아야합니다.

또는이 폴더를 zip / gzip / archive하고 공유 HDFS 경로에 놓은 다음 아카이브를 각 Spark 실행 프로그램의 로컬 작업 디렉토리로 분해하십시오.

어떤 도움이나 코드 샘플도 환영합니다.

이 파일은 구성 파일의 폴더이며 계산의 일부이며 spark-submit 기본 항아리와 함께 있어야합니다 (예 : jar 코드가 작업을 실행할 때 사용하는 데이터베이스 파일 및 불행히도이 종속성을 I 기존 코드 재사용).

안부, - 휴무

해결법

    from https://stackoverflow.com/questions/46515032/copy-files-config-from-hdfs-to-local-working-directory-of-every-spark-executor by cc-by-sa and MIT license