복붙노트

[HADOOP] Flume을 사용하여 원격 노드에서 HDFS로 파일 전송

HADOOP

Flume을 사용하여 원격 노드에서 HDFS로 파일 전송

나는 바이너리 파일들을 * gz 포맷으로 압축했다. 이는 원격 노드에서 생성되며 데이터 센터의 서버 중 하나에 위치한 HDFS로 전송되어야합니다.

Flume으로 파일을 전송할 수있는 옵션을 모색 중입니다. Spooling Directory 구성으로이 작업을 수행 할 수있는 옵션을 살펴 보았지만 파일의 디렉토리가 같은 HDFS 노드에 로컬로 위치해있을 때만 작동합니다.

이 문제를 해결하는 방법에 대한 제안?

해결법

  1. ==============================

    1.이러한 경우에는 즉시 사용 가능한 솔루션이 없습니다. 하지만 다음 해결 방법을 시도해 볼 수 있습니다.

    이러한 경우에는 즉시 사용 가능한 솔루션이 없습니다. 하지만 다음 해결 방법을 시도해 볼 수 있습니다.

  2. ==============================

    2.두 가지 다른 Flume 에이전트를 실행하십시오. 하나는 원격 시스템이고 다른 하나는 데이트 노드입니다. 원격 시스템의 에이전트는 스풀링 디렉토리를 읽고 avro 싱크에 보낼 수 있습니다. 그리고 데이터 노드의 에이전트는 avro 소스를 통해 데이터를 읽고 HDFS로 데이터를 덤프 할 수 있습니다.

    두 가지 다른 Flume 에이전트를 실행하십시오. 하나는 원격 시스템이고 다른 하나는 데이트 노드입니다. 원격 시스템의 에이전트는 스풀링 디렉토리를 읽고 avro 싱크에 보낼 수 있습니다. 그리고 데이터 노드의 에이전트는 avro 소스를 통해 데이터를 읽고 HDFS로 데이터를 덤프 할 수 있습니다.

  3. from https://stackoverflow.com/questions/26168820/transferring-files-from-remote-node-to-hdfs-with-flume by cc-by-sa and MIT license