[HADOOP] 아파치 스파크에서 밑줄로 시작하는 파일에 액세스
HADOOP아파치 스파크에서 밑줄로 시작하는 파일에 액세스
나는 아파치 스파크에서 _로 시작 S3에 GZ 파일에 액세스하려합니다. 불행하게도 불꽃은 눈에 보이지 않는 이러한 파일을하다고 판단하고 존재하지 않는 입력 경로를 반환 : S3N : ... / _ 1013.gz. 내가 밑줄을 제거하면이 파일이 잘 찾습니다.
나는 hadoopConfig에 사용자 정의 PathFilter을 추가하는 시도 :
package CustomReader
import org.apache.hadoop.fs.{Path, PathFilter}
class GFilterZip extends PathFilter {
override def accept(path: Path): Boolean = {
true
}
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])
하지만 난 여전히 같은 문제가 있습니다. 어떤 아이디어?
시스템 : 하둡 2.3 아파치 스파크 1.6.0
해결법
-
==============================
1.파일 _ 시작합니다. 숨겨진 파일입니다.
파일 _ 시작합니다. 숨겨진 파일입니다.
그리고 hiddenFileFilter 항상 적용됩니다. 그것은 방법 org.apache.hadoop.mapred.FileInputFormat.listStatus 내부 첨가
매퍼에 의해 입력으로 무시 파일이 답변을 확인?
from https://stackoverflow.com/questions/38316921/access-files-that-start-with-underscore-in-apache-spark by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 타임 스탬프 필드로 분할 표 (0) | 2019.10.04 |
---|---|
[HADOOP] 어떻게 마루 파일에서 스키마 / 열 이름을받을 수 있나요? (0) | 2019.10.04 |
[HADOOP] 공기 흐름 DAG 실행을 사용하여 EMR 클러스터 창조, 작업이 완료되면 EMR이 종료됩니다 (0) | 2019.10.04 |
[HADOOP] 하이브 : 기존 폴더 구조에 대한 파티션을 추가 (0) | 2019.10.04 |
[HADOOP] 하둡에 명령 줄에서 텍스트를 작성 (0) | 2019.10.04 |