복붙노트

[HADOOP] 하이브에 대한 질문

HADOOP

하이브에 대한 질문

나는이 환경을 :

내 목표는 :

내가 뭘 한거지:

내 의심 :

사전에 감사합니다

해결법

  1. ==============================

    1.당신은 할 수 있습니다. 당신의 HDFS의 위치를 ​​지정 하이브에 외부 테이블을 생성합니다. 그런 다음 그 위에 어떤 HQL을 수행 할 수 있습니다.

    당신은 할 수 있습니다. 당신의 HDFS의 위치를 ​​지정 하이브에 외부 테이블을 생성합니다. 그런 다음 그 위에 어떤 HQL을 수행 할 수 있습니다.

    외부 테이블의 경우, 당신은 하이브에 데이터를로드 할 필요가 없습니다; 데이터는 동일한 HDFS 디렉토리에 있습니다.

    당신은이에 대한 Sqoop을 증분 가져 오기를 사용할 수 있습니다. 그것은 (증분 모드에 따라) 만 새로 추가 / 업데이트 된 데이터를 가져옵니다. 당신은 Sqoop을 작업을 작성하고 필요에 따라 그것을 예약 할 수 있습니다.

  2. ==============================

    2.당신은 SQL 쿼리의 경우 하이브보다 훨씬 빠른 임팔라를 시도 할 수 있습니다. 당신은 몇 가지 구분, 저장 형식 및 데이터를 HDFS에 저장된 위치 (난 당신이 저장하는 데이터의 종류를 모르는)을 지정 아마 테이블을 정의 할 필요가있다. 그럼 당신은 HDFS에서 데이터를 취할 것입니다 SQL 쿼리를 작성할 수 있습니다.

    당신은 SQL 쿼리의 경우 하이브보다 훨씬 빠른 임팔라를 시도 할 수 있습니다. 당신은 몇 가지 구분, 저장 형식 및 데이터를 HDFS에 저장된 위치 (난 당신이 저장하는 데이터의 종류를 모르는)을 지정 아마 테이블을 정의 할 필요가있다. 그럼 당신은 HDFS에서 데이터를 취할 것입니다 SQL 쿼리를 작성할 수 있습니다.

    그러나 나는 당신이 크론와 Sqoop을 작업 일정을 시도 할 수 있습니다, 관계형 데이터베이스에서 실시간 데이터 섭취와 경험이 없다.

  3. from https://stackoverflow.com/questions/42247138/questions-about-hive by cc-by-sa and MIT license