복붙노트

[HADOOP] 복사하지 않고 데이터를 직접 hdfs로 스트리밍

HADOOP

복사하지 않고 데이터를 직접 hdfs로 스트리밍

난 다른 옵션을 통해 내가 로컬 노드에 저장하지 않고 python을 사용하여 hdfs에 직접 쓸 수있는 다음 copyfromlocal를 사용하여 찾고 있는데요.

로컬 파일과 비슷한 hdfs 파일을 사용하고 다음과 같은 인수로 라인에 write 메소드를 사용하고 싶습니다.

   hdfs_file = hdfs.create("file_tmp")
   hdfs_file.write("Hello world\n")

위에서 설명한 유스 케이스와 비슷한 것이 있습니까?

해결법

  1. ==============================

    1.임 파이썬 hdfs 라이브러리에 대해 확실하지 않지만, 항상 hadoop fs put 명령을 통해 스트리밍 할 수 있으며 '-'를 소스 파일 이름으로 사용하여 stdin에서 복사하는 것을 나타낼 수 있습니다.

    임 파이썬 hdfs 라이브러리에 대해 확실하지 않지만, 항상 hadoop fs put 명령을 통해 스트리밍 할 수 있으며 '-'를 소스 파일 이름으로 사용하여 stdin에서 복사하는 것을 나타낼 수 있습니다.

    hadoop fs -put - /path/to/file/in/hdfs.txt
    
  2. from https://stackoverflow.com/questions/15454244/stream-data-into-hdfs-directly-without-copying by cc-by-sa and MIT license