Apache Spark은 HDFS 데이터 노드에 대해 어떻게 알고 있습니까?

내가 HDFS에서 호스팅되는 파일에 대해 Spark 작업을 수행한다고 가정 해보십시오. 이 같은:

var file = sc.textFile("hdfs://...")
val items = file.map(_.split('\t'))
...

Hadoop 세계에서 코드는 데이터가있는 곳으로 가야하므로 맞습니까?

그래서 제 질문은 : Spark 직원들은 HDFS 데이터 노드를 어떻게 알 수 있습니까? Spark은 코드를 실행할 데이터 노드를 어떻게 알 수 있습니까?

해결법

==============================
1.Spark은 Hadoop 클래스를 재사용합니다 : textFile을 호출하면 getSplits 메소드 (분할이 대략 파티션 또는 블록 임)를 가진 TextInputFormat을 만든 다음 각 InputSplit에 getLocations 및 getLocationInfo 메소드가 있습니다.

Spark은 Hadoop 클래스를 재사용합니다 : textFile을 호출하면 getSplits 메소드 (분할이 대략 파티션 또는 블록 임)를 가진 TextInputFormat을 만든 다음 각 InputSplit에 getLocations 및 getLocationInfo 메소드가 있습니다.

[HADOOP] 체크섬 예외는 아파치에서 읽거나 hdfs에 복사 할 때 발생합니다. (0)	2019.06.16
[HADOOP] Hadoop에서 파일 / 폴더 삭제 중 (0)	2019.06.16
[HADOOP] Hadoop 릴리스 누락 / conf 디렉토리 (0)	2019.06.16
[HADOOP] 아마존 s3n URL의 일부로 AWS 액세스 키 ID 및 비밀 키를 지정하는 방법 (0)	2019.06.16
[HADOOP] 하이브 테이블에서 열 이름 가져 오기 (0)	2019.06.16