[HADOOP] s3 또는 로컬 파일 시스템의 스파크를 사용하여 하위 디렉토리에서 재귀 적으로 파일을 읽습니다.
HADOOPs3 또는 로컬 파일 시스템의 스파크를 사용하여 하위 디렉토리에서 재귀 적으로 파일을 읽습니다.
많은 하위 디렉토리가있는 디렉토리에서 파일을 읽으려고합니다. 데이터가 S3에 있으며이 작업을 수행하려고합니다.
val rdd =sc.newAPIHadoopFile(data_loc,
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.io.NullWritable])
이것은 작동하지 않는 것 같습니다.
도움 감사
해결법
-
==============================
1.네, 그것은 작동, 각 블록 / 분할, 기본적으로 모든 하위 디렉토리의 특정 디렉토리를 얻으려면 시간이 좀 걸렸습니다 : s3n : // bucket / root_dir / * / data / * / * / *
네, 그것은 작동, 각 블록 / 분할, 기본적으로 모든 하위 디렉토리의 특정 디렉토리를 얻으려면 시간이 좀 걸렸습니다 : s3n : // bucket / root_dir / * / data / * / * / *
-
==============================
2.좋습니다, 시도해보십시오 :
좋습니다, 시도해보십시오 :
hadoop fs -lsr drwxr-xr-x - venuktangirala supergroup 0 2014-02-11 16:30 /user/venuktangirala/-p drwxr-xr-x - venuktangirala supergroup 0 2014-04-15 17:00 /user/venuktangirala/.Trash drwx------ - venuktangirala supergroup 0 2015-02-11 16:16 /user/venuktangirala/.staging -rw-rw-rw- 1 venuktangirala supergroup 19823 2013-10-24 14:34 /user/venuktangirala/data drwxr-xr-x - venuktangirala supergroup 0 2014-02-12 22:50 /user/venuktangirala/pandora
-lsr은 재귀 적으로 목록을 작성한 다음 "d"로 시작하지 않는 항목을 구문 분석합니다.
from https://stackoverflow.com/questions/27914145/read-files-recursively-from-sub-directories-with-spark-from-s3-or-local-filesyst by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hadoop이 큰 텍스트 파일을 나눈 다음 gzip을 사용하여 분할을 압축 할 수없는 이유는 무엇입니까? (0) | 2019.06.08 |
---|---|
[HADOOP] Hadoop / Hive - 단일 행을 여러 행으로 분할 (0) | 2019.06.08 |
[HADOOP] Hadoop : MapReduce 작업에 입력으로 디렉토리 제공 (0) | 2019.06.08 |
[HADOOP] HDFS없이 가상 분산 작업에서 Hadoop을 실행할 수 있습니까? (0) | 2019.06.08 |
[HADOOP] 도커 컨테이너에서 hadoop 클러스터 실행 (0) | 2019.06.08 |