S3에서 여러 쪽모이 세공 파일 위에 Hive 테이블 만들기

우리는 아래 형식의 s3 (parquet files) 데이터 세트를 가지고 있으며, 데이터는 행 번호를 기준으로 여러 개의 parquet 파일로 나뉩니다.

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

2000 개가 넘는 파일이 있으며 각 파일에는 백만 개의 레코드가 있습니다. 이 파일들은 모두 같은 수의 열과 구조를 가지고 있습니다. 데이터 집합을 하이브로 분할해야하는 경우 열 중 하나에 타임 스탬프가 있습니다. 분석을 위해 데이터 세트를 가리키고 그 위에 단일 하이브 외부 테이블을 생성하거나 스파크를 사용하여 분석 할 수있는 방법은 무엇입니까?

감사.

해결법

==============================
1.파일을 포함하는 경로를 간단히 가리킬 수 있습니다.

파일을 포함하는 경로를 간단히 가리킬 수 있습니다.
```
CREATE EXTERNAL TABLE parquet_hive (
  foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';
```

from https://stackoverflow.com/questions/48931063/creating-hive-table-on-top-of-multiple-parquet-files-in-s3 by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 체적 이미지 데이터의 분산 처리 (0)	2019.09.16
[HADOOP] Hive / SparkSQL에 대한 최대 절전 모드? (0)	2019.09.15
[HADOOP] Mahout 0.9 및 Hadoop 2.2.0-org.apache.hadoop.mapreduce.JobContext 인터페이스를 찾았지만 클래스가 예상되었습니다. (0)	2019.09.15
[HADOOP] hadoop-총 매퍼가 결정되는 방법 (0)	2019.09.15
[HADOOP] Hive / Pig / MapReduce를 사용하여 재귀 계층 구조를 병합하는 방법 (0)	2019.09.15

복붙노트

[HADOOP] S3에서 여러 쪽모이 세공 파일 위에 Hive 테이블 만들기

S3에서 여러 쪽모이 세공 파일 위에 Hive 테이블 만들기

해결법

1.파일을 포함하는 경로를 간단히 가리킬 수 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바