s3 또는 로컬 파일 시스템의 스파크를 사용하여 하위 디렉토리에서 재귀 적으로 파일을 읽습니다.

많은 하위 디렉토리가있는 디렉토리에서 파일을 읽으려고합니다. 데이터가 S3에 있으며이 작업을 수행하려고합니다.

val rdd =sc.newAPIHadoopFile(data_loc,
    classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
    classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
    classOf[org.apache.hadoop.io.NullWritable])

이것은 작동하지 않는 것 같습니다.

도움 감사

해결법

==============================
1.네, 그것은 작동, 각 블록 / 분할, 기본적으로 모든 하위 디렉토리의 특정 디렉토리를 얻으려면 시간이 좀 걸렸습니다 : s3n : // bucket / root_dir / * / data / * / * / *

네, 그것은 작동, 각 블록 / 분할, 기본적으로 모든 하위 디렉토리의 특정 디렉토리를 얻으려면 시간이 좀 걸렸습니다 : s3n : // bucket / root_dir / * / data / * / * / *

==============================

2.좋습니다, 시도해보십시오 :

좋습니다, 시도해보십시오 :

hadoop fs -lsr
drwxr-xr-x   - venuktangirala supergroup          0 2014-02-11 16:30 /user/venuktangirala/-p
drwxr-xr-x   - venuktangirala supergroup          0 2014-04-15 17:00 /user/venuktangirala/.Trash
drwx------   - venuktangirala supergroup          0 2015-02-11 16:16 /user/venuktangirala/.staging
-rw-rw-rw-   1 venuktangirala supergroup      19823 2013-10-24 14:34 /user/venuktangirala/data
drwxr-xr-x   - venuktangirala supergroup          0 2014-02-12 22:50 /user/venuktangirala/pandora

-lsr은 재귀 적으로 목록을 작성한 다음 "d"로 시작하지 않는 항목을 구문 분석합니다.

from https://stackoverflow.com/questions/27914145/read-files-recursively-from-sub-directories-with-spark-from-s3-or-local-filesyst by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] hadoop이 큰 텍스트 파일을 나눈 다음 gzip을 사용하여 분할을 압축 할 수없는 이유는 무엇입니까? (0)	2019.06.08
[HADOOP] Hadoop / Hive - 단일 행을 여러 행으로 분할 (0)	2019.06.08
[HADOOP] Hadoop : MapReduce 작업에 입력으로 디렉토리 제공 (0)	2019.06.08
[HADOOP] HDFS없이 가상 분산 작업에서 Hadoop을 실행할 수 있습니까? (0)	2019.06.08
[HADOOP] 도커 컨테이너에서 hadoop 클러스터 실행 (0)	2019.06.08

복붙노트

[HADOOP] s3 또는 로컬 파일 시스템의 스파크를 사용하여 하위 디렉토리에서 재귀 적으로 파일을 읽습니다.

s3 또는 로컬 파일 시스템의 스파크를 사용하여 하위 디렉토리에서 재귀 적으로 파일을 읽습니다.

해결법

1.네, 그것은 작동, 각 블록 / 분할, 기본적으로 모든 하위 디렉토리의 특정 디렉토리를 얻으려면 시간이 좀 걸렸습니다 : s3n : // bucket / root_dir / * / data / * / * / *

2.좋습니다, 시도해보십시오 :

'HADOOP' 카테고리의 다른 글

티스토리툴바