복붙노트

[HADOOP] BigQuery에서 Hadoop 클러스터로-데이터 전송 방법

HADOOP

BigQuery에서 Hadoop 클러스터로-데이터 전송 방법

앱의 사용자 활동을 추적하는 Google 웹 로그 분석 (GA) 계정이 있습니다. 원시 GA 데이터에 액세스 할 수 있도록 BigQuery를 설정했습니다. 데이터는 GA에서 BigQuery로 매일 제공됩니다.

프로그래밍 방식으로 BigQuery API를 쿼리하는 Python 앱이 있습니다. 이 응용 프로그램은 내가 쿼리하는 것에 따라 필요한 응답을 제공합니다.

다음 단계는 BigQuery에서이 데이터를 가져 와서 Hadoop 클러스터에 덤프하는 것입니다. 이상적으로 데이터를 사용하여 하이브 테이블을 만들고 싶습니다. 파이썬 앱을 중심으로 ETL 프로세스와 같은 것을 만들고 싶습니다. 예를 들어, 매일 파이썬 앱을 실행하고 데이터를 클러스터로 내보내는 etl 프로세스를 실행합니다.

결국이 ETL 프로세스는 Jenkins에 배치되어야하며 프로덕션 시스템에서 실행될 수 있어야합니다.

이 ETL 프로세스를 계획 할 때 고려해야 할 아키텍처 / 디자인 / 일반 요소는 무엇입니까?

내가 어떻게 해야하는지에 대한 제안? 가장 간단하고 실행 가능한 방식으로이 작업을 수행하고 싶습니다.

미리 감사드립니다.

해결법

  1. ==============================

    1.BigQuery에서 Hadoop으로 이동하는 가장 쉬운 방법은 공식 Google BigQuery Connector for Hadoop을 사용하는 것입니다.

    BigQuery에서 Hadoop으로 이동하는 가장 쉬운 방법은 공식 Google BigQuery Connector for Hadoop을 사용하는 것입니다.

    https://cloud.google.com/hadoop/bigquery-connector

    이 커넥터는 BigQueryInputFormat 클래스를 정의합니다.

    (Google Cloud Storage를 BigQuery의 데이터와 Hadoop이 소비하는 스플릿 간의 중개자로 사용합니다)

  2. ==============================

    2.Oozie를 확인하십시오. 요구 사항에 맞는 것 같습니다. 워크 플로우 엔진, 스케줄링 지원 및 쉘 스크립트 및 하이브 지원이 있습니다.

    Oozie를 확인하십시오. 요구 사항에 맞는 것 같습니다. 워크 플로우 엔진, 스케줄링 지원 및 쉘 스크립트 및 하이브 지원이 있습니다.

    설치 및 배포와 관련하여 일반적으로 hadoop 배포의 일부이지만 별도로 설치할 수 있습니다. 지속성 계층으로 db의 종속성이 있습니다. 추가 노력이 필요할 수 있습니다.

    웹 UI와 나머지 API가 있습니다. 원하는 경우 작업 관리 및 모니터링을 자동화 할 수 있습니다.

  3. from https://stackoverflow.com/questions/27932055/bigquery-to-hadoop-cluster-how-to-transfer-data by cc-by-sa and MIT license