하이브 : 테이블 및 파티션 작성 기준

다음과 같이로드 된 데이터가있는 테이블이 있습니다.

create table xyzlogTable (dateC string , hours string, minutes string, seconds string, TimeTaken string, Method string, UriQuery string, ProtocolStatus string) row format serde 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' with serdeproperties( "input.regex" = "(\\S+)\\t(\\d+):(\\d+):(\\d+)\\t(\\S+)\\t(\\S+)\\t(\\S+)\\t(\\S+)", "output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s") stored as textfile;

load data local inpath '/home/hadoop/hive/xyxlogData/' into table xyxlogTable;

총 행 수는 300 만 개가 넘습니다. 일부 쿼리는 제대로 작동하고 일부 쿼리는 무한 루프에 빠지게됩니다.

select를보고 나면 쿼리가 오랜 시간이 걸리고 때로는 결과를 반환하지 않고 그룹화하여 파티셔닝하기로 결정했습니다.

그러나 다음 두 문장 모두 실패합니다.

create table xyzlogTable (datenonQuery string , hours string, minutes string, seconds string, TimeTaken string, Method string, UriQuery string, ProtocolStatus string) partitioned by (dateC string);

Alter table xyzlogTable (datenonQuery string , hours string, minutes string, seconds string, TimeTaken string, Method string, UriQuery string, ProtocolStatus string) partitioned by (dateC string);

어떤 생각이라도 문제가 뭐야!

해결법

==============================
1.이것이 하이브에서 외부 테이블을 사용하는 것을 선호하는 이유입니다. 작성한 테이블이 외부 테이블이 아닙니다 (외부 테이블 작성 대신 테이블 작성을 사용했습니다). 외부 테이블이 아닌 테이블을 삭제하면 메타 데이터 (이름, 열 이름, 유형 등) 및 테이블의 데이터가 HDFS에 삭제됩니다. 반대로 외부 테이블을 삭제하면 메타 데이터 만 제거되고 HDFS의 데이터는 그대로 유지됩니다.

이것이 하이브에서 외부 테이블을 사용하는 것을 선호하는 이유입니다. 작성한 테이블이 외부 테이블이 아닙니다 (외부 테이블 작성 대신 테이블 작성을 사용했습니다). 외부 테이블이 아닌 테이블을 삭제하면 메타 데이터 (이름, 열 이름, 유형 등) 및 테이블의 데이터가 HDFS에 삭제됩니다. 반대로 외부 테이블을 삭제하면 메타 데이터 만 제거되고 HDFS의 데이터는 그대로 유지됩니다.

앞으로 몇 가지 옵션이 있습니다.
==============================
2.먼저 이미 생성 된 테이블을 삭제 한 다음 분할 된 테이블을 만들어야합니다. 또는 테이블 이름을 변경하십시오.

먼저 이미 생성 된 테이블을 삭제 한 다음 분할 된 테이블을 만들어야합니다. 또는 테이블 이름을 변경하십시오.

from https://stackoverflow.com/questions/13800360/hive-create-table-and-partition-by by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 마스터는 원사로 시작해야합니다. (0)	2019.07.31
[HADOOP] INSERT OVERWRITE의 SELECT 쿼리가 결과를 반환하지 않는 경우 Hive 테이블이 덮어 쓰지 않도록하는 방법이 있습니까? (0)	2019.07.31
[HADOOP] 하둡 : 간격과 결합 (0)	2019.07.31
[HADOOP] mapreduce composite 키 샘플 - 원하는 출력을 표시하지 않습니다. (0)	2019.07.31
[HADOOP] hadoop에서 json을 읽는 사용자 입력 형식 (0)	2019.07.31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] 하이브 : 테이블 및 파티션 작성 기준

하이브 : 테이블 및 파티션 작성 기준

해결법

2.먼저 이미 생성 된 테이블을 삭제 한 다음 분할 된 테이블을 만들어야합니다. 또는 테이블 이름을 변경하십시오.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역