복붙노트

[HADOOP] 정기적 인 작업 실행 (모범 사례)

HADOOP

정기적 인 작업 실행 (모범 사례)

언제든지 데이터베이스 및 응용 프로그램에 URL을 업로드 할 수있는 고객은 최대한 빨리 URL을 처리해야합니다. 그래서주기적인 hadoop 작업을 실행하거나 다른 응용 프로그램에서 자동으로 hadoop 작업을 실행해야합니다 (모든 스크립트는 새 링크가 추가되었음을 나타내며 hadoop 작업에 대한 데이터를 생성하고 작업을 실행합니다). PHP 또는 Python 스크립트의 경우 cronjob을 설정할 수 있지만주기적인 hadoop 작업을 실행하는 데 가장 좋은 방법은 무엇입니까 (hadoop에 대한 데이터 준비, 데이터 업로드, hadoop 작업 실행 및 데이터를 데이터베이스로 다시 이동 하시겠습니까?

해결법

  1. ==============================

    1.다양한 트리거를 기반으로 작업을 실행할 수있는 Y!의 새로운 워크 플로우 시스템 인 Oozie를 살펴보십시오. Alejandro는 다음과 같은 좋은 오버 플로우를 제시합니다. http://www.slideshare.net/ydn/5-oozie-hadoopsummit2010

    다양한 트리거를 기반으로 작업을 실행할 수있는 Y!의 새로운 워크 플로우 시스템 인 Oozie를 살펴보십시오. Alejandro는 다음과 같은 좋은 오버 플로우를 제시합니다. http://www.slideshare.net/ydn/5-oozie-hadoopsummit2010

  2. ==============================

    2.가능한 빨리 URL을 처리하려면 각 URL을 한 번에 하나씩 처리해야합니다. 내 추천은 몇 가지 링크 (또는 MB의 링크, 또는 예를 들어, 10 분, 매일)를 기다리는 것입니다. 그리고 일괄 처리 (매일 처리하고 있지만 그 작업에는 몇 시간이 걸립니다)

    가능한 빨리 URL을 처리하려면 각 URL을 한 번에 하나씩 처리해야합니다. 내 추천은 몇 가지 링크 (또는 MB의 링크, 또는 예를 들어, 10 분, 매일)를 기다리는 것입니다. 그리고 일괄 처리 (매일 처리하고 있지만 그 작업에는 몇 시간이 걸립니다)

  3. from https://stackoverflow.com/questions/3139780/periodic-hadoop-jobs-running-best-practice by cc-by-sa and MIT license