복붙노트

[HADOOP] hdfs에서 파일을 읽는 방법 [duplicate]

HADOOP

hdfs에서 파일을 읽는 방법 [duplicate]

나는 / project1 디렉토리 아래에있는 hadoop 파일 시스템에 텍스트 파일 이름 mr.txt를 가지고있다. mr.txt 파일을 로컬에 다운로드하지 않고 텍스트 파일의 첫 번째 줄을 읽으려면 python 코드를 작성해야합니다. 하지만 hdfs에서 mr.txt 파일을 여는 데 어려움이 있습니다. 나는 시도했다 :

open('hdfs:///project1/mr.txt','r') 

해결법

  1. ==============================

    1.PySpark를 설치하십시오.

    PySpark를 설치하십시오.

    text = sc.textFile('hdfs:///project1/mr.txt')
    first_line = text.first()
    
  2. ==============================

    2.당신의 소프트웨어가 무엇인지, 어디에서 실행되는지 더 자세히 알지 못하면서 ...

    당신의 소프트웨어가 무엇인지, 어디에서 실행되는지 더 자세히 알지 못하면서 ...

    NFS 서버를 사용하여 HDFS 볼륨을 마운트하고 로컬로 액세스 할 수 있습니다. 이 옵션이 사용자의 요구에 맞지 않으면 Hadoop Streaming을 사용해야합니다. 마지막으로 Spark 작업을 작성하는 경우 로컬 FS 인 것처럼 HDFS에 액세스 할 수 있습니다.

  3. from https://stackoverflow.com/questions/42447912/how-to-read-the-file-from-hdfs by cc-by-sa and MIT license