복붙노트

[HADOOP] FTP에서 HDFS로 매주 파일 다운로드

HADOOP

FTP에서 HDFS로 매주 파일 다운로드

ftp 서버에서 CDH5 hadoop 클러스터로 파일을 매주 다운로드하는 것을 자동화하고 싶습니다. 이 작업을 수행하는 가장 좋은 방법은 무엇입니까?

오지 코디네이터 (Oozie coordinator) 일을 생각하고 있었지만 파일을 다운로드하는 좋은 방법을 생각할 수 없습니다.

해결법

  1. ==============================

    1.CDH5를 사용하고 있기 때문에 HDFS에 대한 NFSv3 인터페이스가 Hadoop 배포에 포함되어 있다는 점은 주목할 가치가 있습니다. CDH5 설치 설명서에서 "NFSv3 게이트웨이 구성"을 확인해야합니다.

    CDH5를 사용하고 있기 때문에 HDFS에 대한 NFSv3 인터페이스가 Hadoop 배포에 포함되어 있다는 점은 주목할 가치가 있습니다. CDH5 설치 설명서에서 "NFSv3 게이트웨이 구성"을 확인해야합니다.

    완료되면 wget, curl, python 등을 사용하여 파일을 NFS 마운트에 놓을 수 있습니다. Oozie를 통해이 작업을 수행하고 싶을 수도 있습니다 ... 작업 디자이너로 가서 "Shell"명령의 복사본을 만듭니다. 데이터 전송 (파이썬 스크립트, 컬, ftp 등)을 선택한 명령을 입력하고 $ {myVar}를 사용하여 작업을 매개 변수화하십시오.

    완벽하지는 않지만 꽤 우아하다고 생각합니다.

  2. ==============================

    2.나는 당신이 파일을 가져 오기를 원한다고 생각합니다.

    나는 당신이 파일을 가져 오기를 원한다고 생각합니다.

    하나의 간단한 솔루션은 워크 플로를 실행하는 조정자를 사용할 수 있다는 것입니다.

    워크 플로에는 쉘 동작이 있어야합니다.

    http://oozie.apache.org/docs/3.3.0/DG_ShellActionExtension.html

    그 안에있는 스크립트는

    wget http://myftp.com/file.name

    스크립트에서 원하는 모든 것을 할 수 있습니다.

  3. from https://stackoverflow.com/questions/22374057/download-file-weekly-from-ftp-to-hdfs by cc-by-sa and MIT license