복붙노트

[HADOOP] Google Dataflow의 워크 플로 오케스트레이션

HADOOP

Google Dataflow의 워크 플로 오케스트레이션

우리는 배치 데이터 처리를 위해 Google Dataflow를 사용하고 있으며 Azkaban이 Hadoop에서 수행하는 것과 유사한 워크 플로 오케스트레이션 도구 옵션을 찾고 있습니다.

우리가 찾고있는 것들은

우리는 Pentaho를 평가했지만 이러한 기능은 Enterprise Edition에서 사용할 수 있으며 비용이 많이 듭니다. 우리는 현재 javaprocess 작업 유형을 지원하므로 Azkaban을 평가하고 있습니다. 그러나 Azkaban은 주로 Hadoop 작업용으로 만들어 지므로 일반 Java 프로세스보다 Hadoop 인프라와보다 긴밀하게 통합됩니다.

오픈 소스 또는 매우 저렴한 솔루션에 대한 제안을 부탁드립니다.

해결법

  1. ==============================

    1.Apache Airflow (https://github.com/apache/incubator-airflow)가 사용자의 요구를 충족시키는 것처럼 들리며 이제 Dataflow 연산자 (https://github.com/apache/incubator-airflow/blob/master/ airflow / contrib / operators / dataflow_operator.py).

    Apache Airflow (https://github.com/apache/incubator-airflow)가 사용자의 요구를 충족시키는 것처럼 들리며 이제 Dataflow 연산자 (https://github.com/apache/incubator-airflow/blob/master/ airflow / contrib / operators / dataflow_operator.py).

  2. ==============================

    2.Google 데이터 흐름을 조정하기 위해 Apache Airflow를 기반으로 구축 된 관리되는 워크 플로우 오케스트레이션 서비스 인 Cloud composer를 사용할 수 있습니다. 이를 통해 유연성이 향상되어 온 프레미스와 퍼블릭 클라우드간에 교차하는 대부분의 Google 서비스 및 워크 플로를 조정할 수 있습니다.

    Google 데이터 흐름을 조정하기 위해 Apache Airflow를 기반으로 구축 된 관리되는 워크 플로우 오케스트레이션 서비스 인 Cloud composer를 사용할 수 있습니다. 이를 통해 유연성이 향상되어 온 프레미스와 퍼블릭 클라우드간에 교차하는 대부분의 Google 서비스 및 워크 플로를 조정할 수 있습니다.

  3. from https://stackoverflow.com/questions/39006399/workflow-orchestration-for-google-dataflow by cc-by-sa and MIT license