hdfs에서 파일을 읽는 방법 [duplicate]

나는 / project1 디렉토리 아래에있는 hadoop 파일 시스템에 텍스트 파일 이름 mr.txt를 가지고있다. mr.txt 파일을 로컬에 다운로드하지 않고 텍스트 파일의 첫 번째 줄을 읽으려면 python 코드를 작성해야합니다. 하지만 hdfs에서 mr.txt 파일을 여는 데 어려움이 있습니다. 나는 시도했다 :

open('hdfs:///project1/mr.txt','r')

해결법

==============================
1.PySpark를 설치하십시오.

PySpark를 설치하십시오.
```
text = sc.textFile('hdfs:///project1/mr.txt')
first_line = text.first()
```
==============================
2.당신의 소프트웨어가 무엇인지, 어디에서 실행되는지 더 자세히 알지 못하면서 ...

당신의 소프트웨어가 무엇인지, 어디에서 실행되는지 더 자세히 알지 못하면서 ...

NFS 서버를 사용하여 HDFS 볼륨을 마운트하고 로컬로 액세스 할 수 있습니다. 이 옵션이 사용자의 요구에 맞지 않으면 Hadoop Streaming을 사용해야합니다. 마지막으로 Spark 작업을 작성하는 경우 로컬 FS 인 것처럼 HDFS에 액세스 할 수 있습니다.

from https://stackoverflow.com/questions/42447912/how-to-read-the-file-from-hdfs by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] Spark 클러스터의 S3에서 읽기 작업을 수행하면 IllegalAccessError가 발생합니다 : MutableCounterLong [duplicate] 메소드에 액세스하려고했습니다. (0)	2019.07.29
[HADOOP] Pyhive를 사용하여 원격 하이브에 액세스하는 방법 (0)	2019.07.29
[HADOOP] Hadoop 2.9.2, Spark 2.4.0 AWS s3a 버킷 액세스 (0)	2019.07.29
[HADOOP] Spark를 사용하여 병렬로 데이터 집합 캐시 및 쿼리 (0)	2019.07.29
[HADOOP] 스파크의 HiveContext가 내부적으로 어떻게 작동합니까? (0)	2019.07.29

복붙노트

[HADOOP] hdfs에서 파일을 읽는 방법 [duplicate]

hdfs에서 파일을 읽는 방법 [duplicate]

해결법

1.PySpark를 설치하십시오.

2.당신의 소프트웨어가 무엇인지, 어디에서 실행되는지 더 자세히 알지 못하면서 ...

'HADOOP' 카테고리의 다른 글

티스토리툴바