아파치 스파크에서 밑줄로 시작하는 파일에 액세스

나는 아파치 스파크에서 _로 시작 S3에 GZ 파일에 액세스하려합니다. 불행하게도 불꽃은 눈에 보이지 않는 이러한 파일을하다고 판단하고 존재하지 않는 입력 경로를 반환 : S3N : ... / _ 1013.gz. 내가 밑줄을 제거하면이 파일이 잘 찾습니다.

나는 hadoopConfig에 사용자 정의 PathFilter을 추가하는 시도 :

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
  override def accept(path: Path): Boolean = {
    true
  }
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

하지만 난 여전히 같은 문제가 있습니다. 어떤 아이디어?

시스템 : 하둡 2.3 아파치 스파크 1.6.0

해결법

==============================
1.파일 _ 시작합니다. 숨겨진 파일입니다.

파일 _ 시작합니다. 숨겨진 파일입니다.

그리고 hiddenFileFilter 항상 적용됩니다. 그것은 방법 org.apache.hadoop.mapred.FileInputFormat.listStatus 내부 첨가

매퍼에 의해 입력으로 무시 파일이 답변을 확인?

from https://stackoverflow.com/questions/38316921/access-files-that-start-with-underscore-in-apache-spark by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 타임 스탬프 필드로 분할 표 (0)	2019.10.04
[HADOOP] 어떻게 마루 파일에서 스키마 / 열 이름을받을 수 있나요? (0)	2019.10.04
[HADOOP] 공기 흐름 DAG 실행을 사용하여 EMR 클러스터 창조, 작업이 완료되면 EMR이 종료됩니다 (0)	2019.10.04
[HADOOP] 하이브 : 기존 폴더 구조에 대한 파티션을 추가 (0)	2019.10.04
[HADOOP] 하둡에 명령 줄에서 텍스트를 작성 (0)	2019.10.04

복붙노트

[HADOOP] 아파치 스파크에서 밑줄로 시작하는 파일에 액세스

아파치 스파크에서 밑줄로 시작하는 파일에 액세스

해결법

1.파일 _ 시작합니다. 숨겨진 파일입니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바