복붙노트

[HADOOP] Flume NG 및 HDFS

HADOOP

Flume NG 및 HDFS

나는 아주 새롭다, 그래서 바보 같은 질문을 변명해라.

나는 다음과 같은 지식을 가지고있다. Hadoop의 가장 큰 활용 사례는 대용량 파일이므로지도 작성 작업을 실행하는 동안 효율을 높이는 데 도움이됩니다.

위의 내용을 염두에두면 Flume NG에 대해 다소 혼란 스럽습니다. 로그 파일을 꼬리로 매초마다 로그를 생성한다고 가정합니다. 로그가 새로운 행을 얻으면 Flume을 통해 hdfs로 전송됩니다.

a) 이것은 flume이 tailing 중이거나 기존 hdfs 파일에 추가하는 로그 파일에 기록 된 모든 파일에 새 파일을 생성한다는 것을 의미합니까?

b) 첫 번째 장소에서 hdfs에 append가 허용됩니까 ??

c) b에 대한 답이 사실이라면 ?? 즉, 내용이 끊임없이 추가됩니다. 언제 어떻게 맵 렌더 애플리케이션을 실행해야합니까?

위의 질문은 어리석은 것처럼 들릴 수 있지만 동일한 답변은 높이 평가됩니다.

추신 : 나는 Flume NG 또는 hadoop을 아직 설정하지 않았으며 단지 기사를 읽음으로써 이해를 얻었으며 이것이 회사에 가치를 더할 수있는 방법이었습니다.

해결법

  1. ==============================

    1.Flume은 HDFS 싱크를 통해 HDFS에 씁니다. Flume이 시작되어 이벤트 수신을 시작하면 싱크는 새 파일을 열고 이벤트를 이벤트에 씁니다. 어떤 시점에서 이전에 열린 파일을 닫아야하고 그때까지는 현재 블록의 데이터가 다른 reda에게 보이지 않습니다.

    Flume은 HDFS 싱크를 통해 HDFS에 씁니다. Flume이 시작되어 이벤트 수신을 시작하면 싱크는 새 파일을 열고 이벤트를 이벤트에 씁니다. 어떤 시점에서 이전에 열린 파일을 닫아야하고 그때까지는 현재 블록의 데이터가 다른 reda에게 보이지 않습니다.

    문서에 설명 된대로 Flume HDFS 싱크에는 몇 가지 파일 닫기 전략이 있습니다.

    그래서, 당신의 질문에 :

    a) Flume은 현재 열려있는 파일을 닫을 때까지 그리고 새로운 파일을 열 때까지 이벤트를 씁니다.

    b) HDFS에서는 추가가 허용되지만 Flume은이를 사용하지 않습니다. 파일이 닫히면 Flume은 어떤 데이터도 추가하지 않습니다.

    c) 현재 열려있는 파일을 mapreduce 응용 프로그램에서 숨기려면 inUsePrefix 옵션을 사용하십시오. -로 시작하는 이름을 가진 모든 파일. MR 작업에는 보이지 않습니다.

  2. from https://stackoverflow.com/questions/17724391/flume-ng-and-hdfs by cc-by-sa and MIT license