스파크 클러스터에서 사용할 수있는 모든 파일은 스칼라 또는 Python을 사용 하둡 HDFS에 저장된 목록?

로컬 스파크에서 사용할 수있는 모든 파일 이름을 나열하는 가장 효율적인 방법은 무엇입니까? 내가 스칼라 API를 사용하고 있지만, 파이썬도 잘해야한다.

해결법

==============================

1.

import org.apache.hadoop.fs.{FileSystem, FileUtil, Path}
import scala.collection.mutable.Stack


 val fs = FileSystem.get( sc.hadoopConfiguration )
 var dirs = Stack[String]()
 val files = scala.collection.mutable.ListBuffer.empty[String]
 val fs = FileSystem.get(sc.hadoopConfiguration)
 dirs.push("/user/username/")

 while(!dirs.isEmpty){
     val status = fs.listStatus(new Path(dirs.pop()))
     status.foreach(x=> if(x.isDirectory) dirs.push(x.getPath.toString) else 
     files+= x.getPath.toString)
 }

files.foreach(println)

from https://stackoverflow.com/questions/23478377/listing-all-files-available-in-spark-cluster-stored-on-hadoop-hdfs-using-scala-o by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 어떻게 방지 할`하둡 FS의 RMR <URI> '$ 폴더 $ 파일을 생성에서? (0)	2019.09.21
[HADOOP] 하이브 - 상위 부모 잎 노드에서 양의 균형을 롤링 (0)	2019.09.21
[HADOOP] 실패지도 작업의 #은 제한을 허용 초과했습니다 (0)	2019.09.21
[HADOOP] 무대-1 하둡 작업 정보는 : 감속기의 수는 항상 내가 그것을 변경할 수 없습니다입니다 1. 보여줍니다. 내가 어떻게 그것을 바꿀 수 있나요? (0)	2019.09.21
[HADOOP] 하이브 다른 테이블로 한 테이블 JSON 데이터 삽입 (0)	2019.09.21

복붙노트

[HADOOP] 스파크 클러스터에서 사용할 수있는 모든 파일은 스칼라 또는 Python을 사용 하둡 HDFS에 저장된 목록?

스파크 클러스터에서 사용할 수있는 모든 파일은 스칼라 또는 Python을 사용 하둡 HDFS에 저장된 목록?

해결법

1.

'HADOOP' 카테고리의 다른 글

티스토리툴바