[HADOOP] S3에서 여러 쪽모이 세공 파일 위에 Hive 테이블 만들기
HADOOPS3에서 여러 쪽모이 세공 파일 위에 Hive 테이블 만들기
우리는 아래 형식의 s3 (parquet files) 데이터 세트를 가지고 있으며, 데이터는 행 번호를 기준으로 여러 개의 parquet 파일로 나뉩니다.
data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...
2000 개가 넘는 파일이 있으며 각 파일에는 백만 개의 레코드가 있습니다. 이 파일들은 모두 같은 수의 열과 구조를 가지고 있습니다. 데이터 집합을 하이브로 분할해야하는 경우 열 중 하나에 타임 스탬프가 있습니다. 분석을 위해 데이터 세트를 가리키고 그 위에 단일 하이브 외부 테이블을 생성하거나 스파크를 사용하여 분석 할 수있는 방법은 무엇입니까?
감사.
해결법
-
==============================
1.파일을 포함하는 경로를 간단히 가리킬 수 있습니다.
파일을 포함하는 경로를 간단히 가리킬 수 있습니다.
CREATE EXTERNAL TABLE parquet_hive ( foo string ) STORED AS PARQUET LOCATION 's3://myBucket/myParquet/';
from https://stackoverflow.com/questions/48931063/creating-hive-table-on-top-of-multiple-parquet-files-in-s3 by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 체적 이미지 데이터의 분산 처리 (0) | 2019.09.16 |
---|---|
[HADOOP] Hive / SparkSQL에 대한 최대 절전 모드? (0) | 2019.09.15 |
[HADOOP] Mahout 0.9 및 Hadoop 2.2.0-org.apache.hadoop.mapreduce.JobContext 인터페이스를 찾았지만 클래스가 예상되었습니다. (0) | 2019.09.15 |
[HADOOP] hadoop-총 매퍼가 결정되는 방법 (0) | 2019.09.15 |
[HADOOP] Hive / Pig / MapReduce를 사용하여 재귀 계층 구조를 병합하는 방법 (0) | 2019.09.15 |