[HADOOP] HDFS에서 모든 스파크 집행자의 로컬 작업 디렉토리로 파일 복사 (구성)
HADOOPHDFS에서 모든 스파크 집행자의 로컬 작업 디렉토리로 파일 복사 (구성)
파일을 가진 폴더를 HDFS에서 Java를 사용하는 각 스파크 실행 프로그램의 로컬 작업 디렉토리로 복사하는 방법을 모색 중입니다.
처음에는 spark-submit의 --files FILES 옵션을 사용하려고했지만 임의의 중첩 파일 폴더를 지원하지 않는 것으로 보입니다. 따라서이 폴더를 공유 HDFS 경로에 두어 작업을 실행하기 전에 각각의 실행자가 작업 디렉토리에 올바르게 복사 할 수 있지만 자바 코드에서 올바르게 수행하는 방법을 찾아야합니다.
또는이 폴더를 zip / gzip / archive하고 공유 HDFS 경로에 놓은 다음 아카이브를 각 Spark 실행 프로그램의 로컬 작업 디렉토리로 분해하십시오.
어떤 도움이나 코드 샘플도 환영합니다.
이 파일은 구성 파일의 폴더이며 계산의 일부이며 spark-submit 기본 항아리와 함께 있어야합니다 (예 : jar 코드가 작업을 실행할 때 사용하는 데이터베이스 파일 및 불행히도이 종속성을 I 기존 코드 재사용).
안부, - 휴무
해결법
from https://stackoverflow.com/questions/46515032/copy-files-config-from-hdfs-to-local-working-directory-of-every-spark-executor by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하이브를 asp.net 프로젝트에 연결하는 방법 (0) | 2019.06.27 |
---|---|
[HADOOP] 셔플 링 단계는 실제로 무엇을합니까? (0) | 2019.06.26 |
[HADOOP] 로컬 / 원격 클러스터에서 java hadoop 작업 실행하기 (0) | 2019.06.26 |
[HADOOP] Kerberos 인증을 사용하여 impyla 클라이언트를 사용하여 Impala에 연결하십시오. (0) | 2019.06.26 |
[HADOOP] Hadoop 2.4 버전 용 Apache Pig 빌드 (0) | 2019.06.26 |