[HADOOP] Flume을 사용하여 원격 노드에서 HDFS로 파일 전송
HADOOPFlume을 사용하여 원격 노드에서 HDFS로 파일 전송
나는 바이너리 파일들을 * gz 포맷으로 압축했다. 이는 원격 노드에서 생성되며 데이터 센터의 서버 중 하나에 위치한 HDFS로 전송되어야합니다.
Flume으로 파일을 전송할 수있는 옵션을 모색 중입니다. Spooling Directory 구성으로이 작업을 수행 할 수있는 옵션을 살펴 보았지만 파일의 디렉토리가 같은 HDFS 노드에 로컬로 위치해있을 때만 작동합니다.
이 문제를 해결하는 방법에 대한 제안?
해결법
-
==============================
1.이러한 경우에는 즉시 사용 가능한 솔루션이 없습니다. 하지만 다음 해결 방법을 시도해 볼 수 있습니다.
이러한 경우에는 즉시 사용 가능한 솔루션이 없습니다. 하지만 다음 해결 방법을 시도해 볼 수 있습니다.
-
==============================
2.두 가지 다른 Flume 에이전트를 실행하십시오. 하나는 원격 시스템이고 다른 하나는 데이트 노드입니다. 원격 시스템의 에이전트는 스풀링 디렉토리를 읽고 avro 싱크에 보낼 수 있습니다. 그리고 데이터 노드의 에이전트는 avro 소스를 통해 데이터를 읽고 HDFS로 데이터를 덤프 할 수 있습니다.
두 가지 다른 Flume 에이전트를 실행하십시오. 하나는 원격 시스템이고 다른 하나는 데이트 노드입니다. 원격 시스템의 에이전트는 스풀링 디렉토리를 읽고 avro 싱크에 보낼 수 있습니다. 그리고 데이터 노드의 에이전트는 avro 소스를 통해 데이터를 읽고 HDFS로 데이터를 덤프 할 수 있습니다.
from https://stackoverflow.com/questions/26168820/transferring-files-from-remote-node-to-hdfs-with-flume by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hdfs의 하이브 테이블을 csv로 내보내기 (0) | 2019.08.04 |
---|---|
[HADOOP] Hive 파티션 컬럼 이름을 변경하는 방법 (0) | 2019.08.04 |
[HADOOP] Hadoop 프로그램의 Configured 클래스 사용법은 무엇입니까? (0) | 2019.08.03 |
[HADOOP] Hadoop Sequence File에서 마지막으로 수정 한 날짜를 얻으려면 어떻게해야합니까? (0) | 2019.08.03 |
[HADOOP] subprocess.check_output () 모듈 객체의 속성이 'check_output'입니다. (0) | 2019.08.03 |