[HADOOP] 새로운 데이터가 HDFS에 추가되었는지 어떻게 알 수 있습니까?
HADOOP새로운 데이터가 HDFS에 추가되었는지 어떻게 알 수 있습니까?
나는 그것이 도착 / HDFS로로드로 데이터의 가용성에 대해 통지하는 게시 구독 모델을 기반으로 알림 시스템을 구현입니다. 나는 이것을 찾을 방법을 찾지 못했습니다. 이 작업을 수행하는 데 사용할 수있는 HDFS API가 있습니까? 아니면 HDFS에 작성된 새로운 데이터에 대한 정보를 얻기 위해 어떤 방법을 사용해야합니까? Hadoop v2.0.2를 사용 중이고 HCatalog를 사용하고 싶지 않습니다.이 작업을 수행 할 자체 도구를 구현하고 싶습니다.
해결법
-
==============================
1.당신이 찾고있는 것은 Oozie 코디네이터입니다.
당신이 찾고있는 것은 Oozie 코디네이터입니다.
HDFS는 파일 시스템이므로 HDFS를 기반으로 파일 가용성을 확인해야합니다. HBase에는 트리거 된 프로 시저 인 보조 프로세서가 있습니다. 그러나 HBase 테이블에서만 사용할 수 있습니다. 따라서 HDFS에서 데이터 가용성을 탐지하는 데 사용할 수 없습니다.
Oozie는 Hadoop 작업을 관리하는 워크 플로 스케줄러 시스템입니다. Oozie Coordinator 작업은 시간 (빈도) 및 데이터 가용성에 의해 트리거 된 반복되는 Oozie Workflow 작업입니다. 또한 다른 프로그램을 실행할 수 있습니다.
따라서 알림 시스템에도 파일 가용성 트리거를 사용할 수 있습니다.
-
==============================
2.HDFS를 사용하는 경우 원하는 기능이 있으므로 HBase를 체크 아웃 할 수 있습니다. HBase에서는 데이터가 테이블에 기록 될 때마다 약간의 코드가 실행되는 MySQL Trigger와 동일한 기능을 수행하는 사전 처리 (또는 사후 처리) 보조 프로세서를 만들 수 있습니다.
HDFS를 사용하는 경우 원하는 기능이 있으므로 HBase를 체크 아웃 할 수 있습니다. HBase에서는 데이터가 테이블에 기록 될 때마다 약간의 코드가 실행되는 MySQL Trigger와 동일한 기능을 수행하는 사전 처리 (또는 사후 처리) 보조 프로세서를 만들 수 있습니다.
HBase가 사용 사례에 맞지 않고 HDFS를 사용해야하는 경우 AFAIK와 유사한 트리거가 없습니다. 적절한 상황에서 데이터가 파일 시스템에 기록 될 때마다 알림을 수행하기 위해 자체 코드로 HDFS API를 래핑 할 수 있습니다. 또는 HDFS를 변경하여 폴링 할 수 있습니다 (추악한 대안처럼 보임).
희망은 도움이 Logged
from https://stackoverflow.com/questions/14934079/how-to-know-that-a-new-data-is-been-added-to-hdfs by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hiveserver2 시작하기 (0) | 2019.07.22 |
---|---|
[HADOOP] hadoop의 여러 폴더에 쓰기? (0) | 2019.07.22 |
[HADOOP] PIG에서 GROUP과 COGROUP의 차이점은 무엇입니까? (0) | 2019.07.22 |
[HADOOP] 스파크 예외 : 행을 쓰는 동안 작업을 수행하지 못했습니다. (0) | 2019.07.22 |
[HADOOP] 원사 - 클러스터 모드에서 Spark 드라이버 (및 YARN 컨테이너)에 대한 장애 조치 프로세스가 어떻게 작동하는지에 대한 리소스 / 문서 (0) | 2019.07.22 |