[HADOOP] hdfs에서 파일을 읽는 방법 [duplicate]
HADOOPhdfs에서 파일을 읽는 방법 [duplicate]
나는 / project1 디렉토리 아래에있는 hadoop 파일 시스템에 텍스트 파일 이름 mr.txt를 가지고있다. mr.txt 파일을 로컬에 다운로드하지 않고 텍스트 파일의 첫 번째 줄을 읽으려면 python 코드를 작성해야합니다. 하지만 hdfs에서 mr.txt 파일을 여는 데 어려움이 있습니다. 나는 시도했다 :
open('hdfs:///project1/mr.txt','r')
해결법
-
==============================
1.PySpark를 설치하십시오.
PySpark를 설치하십시오.
text = sc.textFile('hdfs:///project1/mr.txt') first_line = text.first()
-
==============================
2.당신의 소프트웨어가 무엇인지, 어디에서 실행되는지 더 자세히 알지 못하면서 ...
당신의 소프트웨어가 무엇인지, 어디에서 실행되는지 더 자세히 알지 못하면서 ...
NFS 서버를 사용하여 HDFS 볼륨을 마운트하고 로컬로 액세스 할 수 있습니다. 이 옵션이 사용자의 요구에 맞지 않으면 Hadoop Streaming을 사용해야합니다. 마지막으로 Spark 작업을 작성하는 경우 로컬 FS 인 것처럼 HDFS에 액세스 할 수 있습니다.
from https://stackoverflow.com/questions/42447912/how-to-read-the-file-from-hdfs by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Spark 클러스터의 S3에서 읽기 작업을 수행하면 IllegalAccessError가 발생합니다 : MutableCounterLong [duplicate] 메소드에 액세스하려고했습니다. (0) | 2019.07.29 |
---|---|
[HADOOP] Pyhive를 사용하여 원격 하이브에 액세스하는 방법 (0) | 2019.07.29 |
[HADOOP] Hadoop 2.9.2, Spark 2.4.0 AWS s3a 버킷 액세스 (0) | 2019.07.29 |
[HADOOP] Spark를 사용하여 병렬로 데이터 집합 캐시 및 쿼리 (0) | 2019.07.29 |
[HADOOP] 스파크의 HiveContext가 내부적으로 어떻게 작동합니까? (0) | 2019.07.29 |