복붙노트

[HADOOP] S3에서 여러 쪽모이 세공 파일 위에 Hive 테이블 만들기

HADOOP

S3에서 여러 쪽모이 세공 파일 위에 Hive 테이블 만들기

우리는 아래 형식의 s3 (parquet files) 데이터 세트를 가지고 있으며, 데이터는 행 번호를 기준으로 여러 개의 parquet 파일로 나뉩니다.

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

2000 개가 넘는 파일이 있으며 각 파일에는 백만 개의 레코드가 있습니다. 이 파일들은 모두 같은 수의 열과 구조를 가지고 있습니다. 데이터 집합을 하이브로 분할해야하는 경우 열 중 하나에 타임 스탬프가 있습니다. 분석을 위해 데이터 세트를 가리키고 그 위에 단일 하이브 외부 테이블을 생성하거나 스파크를 사용하여 분석 할 수있는 방법은 무엇입니까?

감사.

해결법

  1. ==============================

    1.파일을 포함하는 경로를 간단히 가리킬 수 있습니다.

    파일을 포함하는 경로를 간단히 가리킬 수 있습니다.

    CREATE EXTERNAL TABLE parquet_hive (
      foo string
    ) STORED AS PARQUET
    LOCATION 's3://myBucket/myParquet/';
    
  2. from https://stackoverflow.com/questions/48931063/creating-hive-table-on-top-of-multiple-parquet-files-in-s3 by cc-by-sa and MIT license