[HADOOP] 하이브에 대한 질문
HADOOP하이브에 대한 질문
나는이 환경을 :
내 목표는 :
내가 뭘 한거지:
내 의심 :
사전에 감사합니다
해결법
-
==============================
1.당신은 할 수 있습니다. 당신의 HDFS의 위치를 지정 하이브에 외부 테이블을 생성합니다. 그런 다음 그 위에 어떤 HQL을 수행 할 수 있습니다.
당신은 할 수 있습니다. 당신의 HDFS의 위치를 지정 하이브에 외부 테이블을 생성합니다. 그런 다음 그 위에 어떤 HQL을 수행 할 수 있습니다.
외부 테이블의 경우, 당신은 하이브에 데이터를로드 할 필요가 없습니다; 데이터는 동일한 HDFS 디렉토리에 있습니다.
당신은이에 대한 Sqoop을 증분 가져 오기를 사용할 수 있습니다. 그것은 (증분 모드에 따라) 만 새로 추가 / 업데이트 된 데이터를 가져옵니다. 당신은 Sqoop을 작업을 작성하고 필요에 따라 그것을 예약 할 수 있습니다.
-
==============================
2.당신은 SQL 쿼리의 경우 하이브보다 훨씬 빠른 임팔라를 시도 할 수 있습니다. 당신은 몇 가지 구분, 저장 형식 및 데이터를 HDFS에 저장된 위치 (난 당신이 저장하는 데이터의 종류를 모르는)을 지정 아마 테이블을 정의 할 필요가있다. 그럼 당신은 HDFS에서 데이터를 취할 것입니다 SQL 쿼리를 작성할 수 있습니다.
당신은 SQL 쿼리의 경우 하이브보다 훨씬 빠른 임팔라를 시도 할 수 있습니다. 당신은 몇 가지 구분, 저장 형식 및 데이터를 HDFS에 저장된 위치 (난 당신이 저장하는 데이터의 종류를 모르는)을 지정 아마 테이블을 정의 할 필요가있다. 그럼 당신은 HDFS에서 데이터를 취할 것입니다 SQL 쿼리를 작성할 수 있습니다.
그러나 나는 당신이 크론와 Sqoop을 작업 일정을 시도 할 수 있습니다, 관계형 데이터베이스에서 실시간 데이터 섭취와 경험이 없다.
from https://stackoverflow.com/questions/42247138/questions-about-hive by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 통역 하이브 제플린의 JDBC 인터프리터에서 찾을 수 없습니다 (0) | 2019.10.21 |
---|---|
[HADOOP] 데이터 노드 오류 하이브에 트위터 심리 분석을위한 쿼리를 실행하는 동안 (0) | 2019.10.21 |
[HADOOP] 어떻게 동적으로 Dataproc에서 작업자의 CPU / RAM / 디스크를 업그레이드? (0) | 2019.10.21 |
[HADOOP] SQL로 감소 ES 쿼리 결과를 전달 (0) | 2019.10.21 |
[HADOOP] pyhive, SQLAlchemy의 샌드 박스를 하둡에 연결할 수 없습니다 (0) | 2019.10.21 |