복붙노트

[HADOOP] s3 또는 로컬 파일 시스템의 스파크를 사용하여 하위 디렉토리에서 재귀 적으로 파일을 읽습니다.

HADOOP

s3 또는 로컬 파일 시스템의 스파크를 사용하여 하위 디렉토리에서 재귀 적으로 파일을 읽습니다.

많은 하위 디렉토리가있는 디렉토리에서 파일을 읽으려고합니다. 데이터가 S3에 있으며이 작업을 수행하려고합니다.

val rdd =sc.newAPIHadoopFile(data_loc,
    classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
    classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
    classOf[org.apache.hadoop.io.NullWritable])

이것은 작동하지 않는 것 같습니다.

도움 감사

해결법

  1. ==============================

    1.네, 그것은 작동, 각 블록 / 분할, 기본적으로 모든 하위 디렉토리의 특정 디렉토리를 얻으려면 시간이 좀 걸렸습니다 : s3n : // bucket / root_dir / * / data / * / * / *

    네, 그것은 작동, 각 블록 / 분할, 기본적으로 모든 하위 디렉토리의 특정 디렉토리를 얻으려면 시간이 좀 걸렸습니다 : s3n : // bucket / root_dir / * / data / * / * / *

  2. ==============================

    2.좋습니다, 시도해보십시오 :

    좋습니다, 시도해보십시오 :

    hadoop fs -lsr
    drwxr-xr-x   - venuktangirala supergroup          0 2014-02-11 16:30 /user/venuktangirala/-p
    drwxr-xr-x   - venuktangirala supergroup          0 2014-04-15 17:00 /user/venuktangirala/.Trash
    drwx------   - venuktangirala supergroup          0 2015-02-11 16:16 /user/venuktangirala/.staging
    -rw-rw-rw-   1 venuktangirala supergroup      19823 2013-10-24 14:34 /user/venuktangirala/data
    drwxr-xr-x   - venuktangirala supergroup          0 2014-02-12 22:50 /user/venuktangirala/pandora
    

    -lsr은 재귀 적으로 목록을 작성한 다음 "d"로 시작하지 않는 항목을 구문 분석합니다.

  3. from https://stackoverflow.com/questions/27914145/read-files-recursively-from-sub-directories-with-spark-from-s3-or-local-filesyst by cc-by-sa and MIT license