[HADOOP] hadoop 기반 데이터 파이프 라인 구축을위한 스케줄링 도구 제안
HADOOPhadoop 기반 데이터 파이프 라인 구축을위한 스케줄링 도구 제안
Apache Oozie, Spotify / Luigi 및 airbnb / airflow 사이에서 각각의 장단점은 무엇입니까?
과거에는 PIG와 Hive를 사용하여 데이터 수집 파이프 라인을 구축하기 위해 oozie와 airflow를 사용했습니다. 현재 로그를보고 유용한 이벤트를 추출하여 적색 이동으로 연결하는 파이프 라인을 작성하는 중입니다.
공기 흐름이 사용 / 테스트 / 설정이 훨씬 쉽다는 것을 알았습니다. 훨씬 멋진 UI가 있으며 사용자가 UI 자체에서 작업을 수행 할 수 있습니다. 이는 Oozie의 경우에는 해당되지 않습니다. 안정성 및 문제에 대한 Luigi 또는 기타 통찰력에 대한 정보를 환영합니다.
해결법
-
==============================
1.IMHO, Azkaban은 단순성을 강화하고 (존재하지 않는 기능은 사용할 수 없음) 다른 것은 복잡성을 미묘하게 권장합니다.
IMHO, Azkaban은 단순성을 강화하고 (존재하지 않는 기능은 사용할 수 없음) 다른 것은 복잡성을 미묘하게 권장합니다.
단순한 파이프 라인은 복잡한 파이프 라인보다 낫습니다. 작성하기 쉽고 이해하기 쉬우 며 (특히 작성하지 않은 경우) 디버그 / 수정하기 쉽습니다.
복잡한 작업이 필요한 경우 완전히 성공하거나 완전히 실패하는 방식으로이를 캡슐화하려고합니다.
dem 등원으로 만들 수 있으면 (다시 실행해도 동일한 결과가 생성됨) 더 좋습니다.
-
==============================
2.이 게시물에서는 다양한 가능한 워크 플로에 대한 초기 아이디어를 제공합니다.
이 게시물에서는 다양한 가능한 워크 플로에 대한 초기 아이디어를 제공합니다.
http://bytepawn.com/luigi-airflow-pinball.html
from https://stackoverflow.com/questions/35733441/suggestion-for-scheduling-tools-for-building-hadoop-based-data-pipelines by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 테이블 백분위 수의 임의 샘플을 반환하기 위해 Accumulo 반복자를 작성하는 중입니다. (0) | 2019.08.12 |
---|---|
[HADOOP] Log4j가 HDFS / Log4j.properties에 쓰지 않음 (0) | 2019.08.12 |
[HADOOP] HBase MapReduce 작업에서 기본 공유 라이브러리로드 (0) | 2019.08.12 |
[HADOOP] 스레드“main”java.lang.VerifyError 예외 : 피연산자 스택의 잘못된 유형 (0) | 2019.08.11 |
[HADOOP] script-runner.jar을 통해 실행중인 스크립트의 작업 흐름 ID, 기타 클러스터 매개 변수를 확인하는 방법 (0) | 2019.08.11 |