복붙노트

[HADOOP] 아파치 스파크에서 밑줄로 시작하는 파일에 액세스

HADOOP

아파치 스파크에서 밑줄로 시작하는 파일에 액세스

나는 아파치 스파크에서 _로 시작 S3에 GZ 파일에 액세스하려합니다. 불행하게도 불꽃은 눈에 보이지 않는 이러한 파일을하다고 판단하고 존재하지 않는 입력 경로를 반환 : S3N : ... / _ 1013.gz. 내가 밑줄을 제거하면이 파일이 잘 찾습니다.

나는 hadoopConfig에 사용자 정의 PathFilter을 추가하는 시도 :

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
  override def accept(path: Path): Boolean = {
    true
  }
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

하지만 난 여전히 같은 문제가 있습니다. 어떤 아이디어?

시스템 : 하둡 2.3 아파치 스파크 1.6.0

해결법

  1. ==============================

    1.파일 _ 시작합니다. 숨겨진 파일입니다.

    파일 _ 시작합니다. 숨겨진 파일입니다.

    그리고 hiddenFileFilter 항상 적용됩니다. 그것은 방법 org.apache.hadoop.mapred.FileInputFormat.listStatus 내부 첨가

    매퍼에 의해 입력으로 무시 파일이 답변을 확인?

  2. from https://stackoverflow.com/questions/38316921/access-files-that-start-with-underscore-in-apache-spark by cc-by-sa and MIT license