복붙노트

[HADOOP] 하이브 테이블을 Google BigQuery로 이전

HADOOP

하이브 테이블을 Google BigQuery로 이전

하이브 테이블을 BigQuery로 마이그레이션하기 위해 일종의 데이터 파이프 라인을 설계하려고합니다. Hive는 전제 클러스터의 Hadoop에서 실행 중입니다. 이것은 현재의 디자인입니다. 실제로는 아주 쉽습니다. 쉘 스크립트 일뿐입니다.

각 테이블에 대해 source_hive_table {

}

그게 합리적이라고 생각하니? 스파크를 사용하는 것이 더 좋은 방법일까요? 캐스팅을 처리하는 방식에 만족하지 않아서 BigQuery 테이블을 두 번 생성하지 않으려합니다.

해결법

  1. ==============================

    1.예. 마이그레이션 논리가 의미가 있습니다.

    예. 마이그레이션 논리가 의미가 있습니다.

    개인적으로 Avro (Hive) 데이터를 생성하는 초기 "하이브 쿼리"에 특정 유형의 CAST를 직접 수행하는 것을 선호합니다. 예를 들어 Hive의 "decimal"유형은 Avro 'type'에 매핑됩니다. "type": "bytes", "logicalType": "decimal", "precision": 10, "scale": 2

    그리고 BQ는 단지 logicalType 대신에 primary 타입 (여기서 "bytes")을 취할 것입니다. 이것이 바로 하이브에서 직접 던지기가 더 쉬운 이유입니다. 같은 문제가 날짜 하이브 유형에 발생합니다.

  2. from https://stackoverflow.com/questions/46958916/migrate-hive-table-to-google-bigquery by cc-by-sa and MIT license