복붙노트

[HADOOP] Hive는 HBase와 어떤 차이가 있습니까?

HADOOP

Hive는 HBase와 어떤 차이가 있습니까?

최근 릴리스 된 (http://mirror.facebook.com/facebook/hive/hadoop-0.17/) Hive와 HBase의 성능면을 비교하는 데 관심이 있습니다. Hive가 사용하는 SQL과 같은 인터페이스는 우리가 구현 한 HBase API보다 훨씬 더 좋습니다.

해결법

  1. ==============================

    1.Hive에 대해 많이 알기는 어렵지만 Hive 사이트에이 발췌문이 있음을 알았습니다.이 발췌 문장은 HBase (굵게 표시됨)를 선호합니다.

    Hive에 대해 많이 알기는 어렵지만 Hive 사이트에이 발췌문이 있음을 알았습니다.이 발췌 문장은 HBase (굵게 표시됨)를 선호합니다.

    Hive는 일괄 처리 시스템 인 Hadoop을 기반으로합니다. 따라서이 시스템은 쿼리에 대해 낮은 대기 시간을 보장하지도, 약속 할 수도 없습니다. 여기 패러다임은 엄격히 말해 작업을 제출하고 실시간 쿼리와 달리 작업이 완료 될 때 알림을받습니다. 결과적으로 오라클과 비교하면 데이터가 훨씬 적은 양의 데이터 만 분석 할 수 있지만 분석은 반복 사이의 응답 시간이 몇 분 미만으로 반복적으로 진행됩니다. Hive 쿼리의 경우 가장 작은 작업조차도 응답 시간은 5-10 분 정도이며 큰 작업 일 경우 시간이 걸릴 수도 있습니다.

    HBase와 HyperTable은 모두 성능에 관한 것입니다 (Google의 BigTable에서 모델링 됨). Hive보다 훨씬 빠르며 기능 및 학습 곡선이 높아서 소리가납니다. (예 : 조인 또는 SQL이없는 경우) 같은 구문).

  2. ==============================

    2.하이브는 한 가지 관점에서 SQL과 유사한 문법과 구문 분석기, 쿼리 플래너, 쿼리 실행 엔진, 메타 데이터 레파지토리 및 원주형 스토리지 레이아웃의 5 가지 주요 구성 요소로 이루어져 있습니다. 주요 초점은 데이터웨어 하우스 스타일의 분석 작업 부하이므로 키로 값을 낮은 지연 시간으로 검색 할 필요가 없습니다.

    하이브는 한 가지 관점에서 SQL과 유사한 문법과 구문 분석기, 쿼리 플래너, 쿼리 실행 엔진, 메타 데이터 레파지토리 및 원주형 스토리지 레이아웃의 5 가지 주요 구성 요소로 이루어져 있습니다. 주요 초점은 데이터웨어 하우스 스타일의 분석 작업 부하이므로 키로 값을 낮은 지연 시간으로 검색 할 필요가 없습니다.

    HBase는 고유 한 메타 데이터 저장소와 컬럼 형 스토리지 레이아웃을 가지고 있습니다. HBase 테이블에서 HiveQL 쿼리를 작성하여 Hase의 문법 및 구문 분석기, 쿼리 계획자 및 쿼리 실행 엔진을 활용할 수 있습니다. 자세한 내용은 http://wiki.apache.org/hadoop/Hive/HBaseIntegration을 참조하십시오.

  3. ==============================

    3.Hive는 분석 도구입니다. 돼지와 마찬가지로 맵 축소를 활용하여 잠재적으로 엄청난 양의 데이터를 임시 배치 처리하도록 설계되었습니다. 테라 바이트를 생각해보십시오. 관계형 데이터베이스에서 그렇게하려고한다고 상상해보십시오 ...

    Hive는 분석 도구입니다. 돼지와 마찬가지로 맵 축소를 활용하여 잠재적으로 엄청난 양의 데이터를 임시 배치 처리하도록 설계되었습니다. 테라 바이트를 생각해보십시오. 관계형 데이터베이스에서 그렇게하려고한다고 상상해보십시오 ...

    HBase는 BigTable 기반의 열 기반 키 값 저장소입니다. HBase를 통해 맵 축소 작업을 실행할 수는 있지만 쿼리 자체는 수행 할 수 없습니다. 주요 용도는 키 또는 행 범위 검색으로 행을 가져 오는 것입니다. 주요 기능은 열 패밀리의 행 키 범위를 스캔 할 때 데이터 지역을 가질 수 있다는 것입니다.

  4. ==============================

    4.내 겸손한 지식에 하이브는 돼지와 더 비슷합니다. 하이브는 SQL과 비슷하며 돼지는 스크립트 기반입니다. Hive는 쿼리 최적화 및 실행 엔진뿐만 아니라 최종 사용자가 스키마 매개 변수 (파티션 등)를 지정해야하는 경우 더욱 복잡해 보입니다. 둘 다 텍스트 파일 또는 sequenceFiles를 처리하려고합니다.

    내 겸손한 지식에 하이브는 돼지와 더 비슷합니다. 하이브는 SQL과 비슷하며 돼지는 스크립트 기반입니다. Hive는 쿼리 최적화 및 실행 엔진뿐만 아니라 최종 사용자가 스키마 매개 변수 (파티션 등)를 지정해야하는 경우 더욱 복잡해 보입니다. 둘 다 텍스트 파일 또는 sequenceFiles를 처리하려고합니다.

    HBase는 키 값 데이터 저장소 및 검색을위한 것이며 키 값 쌍 (행)을 검색하거나 필터링 할 수 있습니다. (키, 값) 행에 대한 쿼리를 수행 할 수 없습니다.

  5. ==============================

    5.가장 최근의 Hive 릴리스부터 Hive와 HBase가 통합되면서 작은 업데이트가 필요했던 많은 부분이 변경되었습니다. 이것이 의미하는 바는 Hive가 HBase 데이터 저장소에 대한 쿼리 계층으로 사용될 수 있다는 것입니다. 이제 사람들이 대체 HBase 인터페이스를 찾고 있다면, 돼지는 HBase 데이터를로드하고 저장하는 정말 좋은 방법을 제공합니다. 또한 Cloudera Impala가 HBase 위에 상당한 성능의 하이브 기반 쿼리를 제공 할 것으로 보입니다. 전통적인 Hive 설정보다 쿼리가 최대 45 배 빨라졌습니다.

    가장 최근의 Hive 릴리스부터 Hive와 HBase가 통합되면서 작은 업데이트가 필요했던 많은 부분이 변경되었습니다. 이것이 의미하는 바는 Hive가 HBase 데이터 저장소에 대한 쿼리 계층으로 사용될 수 있다는 것입니다. 이제 사람들이 대체 HBase 인터페이스를 찾고 있다면, 돼지는 HBase 데이터를로드하고 저장하는 정말 좋은 방법을 제공합니다. 또한 Cloudera Impala가 HBase 위에 상당한 성능의 하이브 기반 쿼리를 제공 할 것으로 보입니다. 전통적인 Hive 설정보다 쿼리가 최대 45 배 빨라졌습니다.

  6. ==============================

    6.하이브와 HBase는 다른 용도로 사용됩니다.

    하이브와 HBase는 다른 용도로 사용됩니다.

    하이브 :

    장점 :

    단점 :

    HBase :

    장점 :

    단점 :

    개요:

    Hive는 실시간 쿼리를 위해 HBase가 분석 쿼리에 사용될 수 있습니다. Hive에서 HBase로 데이터를 읽고 쓸 수 있으며 다시 사용할 수 있습니다.

  7. ==============================

    7.Hive와 Hbase를 비교하려면 아래 정의를 기억하고 싶습니다.

    Hive와 Hbase를 비교하려면 아래 정의를 기억하고 싶습니다.

    Hive는 장기 실행 ETL 작업에 적합한 Hadoop 위에 구축 된 데이터웨어 하우스 인프라입니다. Hbase는 실시간 트랜잭션을 처리하도록 설계된 데이터베이스입니다.

  8. from https://stackoverflow.com/questions/24179/how-does-hive-compare-to-hbase by cc-by-sa and MIT license