복붙노트

[HADOOP] 새로운 데이터가 HDFS에 추가되었는지 어떻게 알 수 있습니까?

HADOOP

새로운 데이터가 HDFS에 추가되었는지 어떻게 알 수 있습니까?

나는 그것이 도착 / HDFS로로드로 데이터의 가용성에 대해 통지하는 게시 구독 모델을 기반으로 알림 시스템을 구현입니다. 나는 이것을 찾을 방법을 찾지 못했습니다. 이 작업을 수행하는 데 사용할 수있는 HDFS API가 있습니까? 아니면 HDFS에 작성된 새로운 데이터에 대한 정보를 얻기 위해 어떤 방법을 사용해야합니까? Hadoop v2.0.2를 사용 중이고 HCatalog를 사용하고 싶지 않습니다.이 작업을 수행 할 자체 도구를 구현하고 싶습니다.

해결법

  1. ==============================

    1.당신이 찾고있는 것은 Oozie 코디네이터입니다.

    당신이 찾고있는 것은 Oozie 코디네이터입니다.

    HDFS는 파일 시스템이므로 HDFS를 기반으로 파일 가용성을 확인해야합니다. HBase에는 트리거 된 프로 시저 인 보조 프로세서가 있습니다. 그러나 HBase 테이블에서만 사용할 수 있습니다. 따라서 HDFS에서 데이터 가용성을 탐지하는 데 사용할 수 없습니다.

    Oozie는 Hadoop 작업을 관리하는 워크 플로 스케줄러 시스템입니다. Oozie Coordinator 작업은 시간 (빈도) 및 데이터 가용성에 의해 트리거 된 반복되는 Oozie Workflow 작업입니다. 또한 다른 프로그램을 실행할 수 있습니다.

    따라서 알림 시스템에도 파일 가용성 트리거를 사용할 수 있습니다.

  2. ==============================

    2.HDFS를 사용하는 경우 원하는 기능이 있으므로 HBase를 체크 아웃 할 수 있습니다. HBase에서는 데이터가 테이블에 기록 될 때마다 약간의 코드가 실행되는 MySQL Trigger와 동일한 기능을 수행하는 사전 처리 (또는 사후 처리) 보조 프로세서를 만들 수 있습니다.

    HDFS를 사용하는 경우 원하는 기능이 있으므로 HBase를 체크 아웃 할 수 있습니다. HBase에서는 데이터가 테이블에 기록 될 때마다 약간의 코드가 실행되는 MySQL Trigger와 동일한 기능을 수행하는 사전 처리 (또는 사후 처리) 보조 프로세서를 만들 수 있습니다.

    HBase가 사용 사례에 맞지 않고 HDFS를 사용해야하는 경우 AFAIK와 유사한 트리거가 없습니다. 적절한 상황에서 데이터가 파일 시스템에 기록 될 때마다 알림을 수행하기 위해 자체 코드로 HDFS API를 래핑 할 수 있습니다. 또는 HDFS를 변경하여 폴링 할 수 있습니다 (추악한 대안처럼 보임).

    희망은 도움이 Logged

  3. from https://stackoverflow.com/questions/14934079/how-to-know-that-a-new-data-is-been-added-to-hdfs by cc-by-sa and MIT license