복붙노트

[HADOOP] HBase 대 하이브 대 HDFS 대 하이브

HADOOP

HBase 대 하이브 대 HDFS 대 하이브

내 데이터를 실시간으로로드 할 필요가 없으므로 HBASE를 사용할 필요가 없지만 MR 작업에서 HBASE를 사용하면 성능 이점이 있는지 궁금합니다. 인덱싱 된 데이터로 인해 조인이 더 빨라지면 안됩니까?

벤치 마크가있는 사람이 있습니까?

해결법

  1. ==============================

    1.일반적으로 하이브 / hdfs는 HBase보다 훨씬 빠릅니다. HBase는 HDFS 위에 위치하여 다른 레이어를 추가합니다. HBase는 개별 레코드를 검색하는 경우 더 빠르지 만 MR 레코드를 사용하지는 않습니다.

    일반적으로 하이브 / hdfs는 HBase보다 훨씬 빠릅니다. HBase는 HDFS 위에 위치하여 다른 레이어를 추가합니다. HBase는 개별 레코드를 검색하는 경우 더 빠르지 만 MR 레코드를 사용하지는 않습니다.

  2. ==============================

    2.HBase 대 하이브의 성능 :

    HBase 대 하이브의 성능 :

    Hbase에서 HBase, Hive 및 Hive의 결과를 기반으로하면 두 방법 사이의 성능은 비슷합니다.

    HBase 성능에 관한 하이브

  3. ==============================

    3.존경스럽게 말하지만 : 귀하의 데이터가 실제가 아니며 mapreduce 작업에 대해서도 생각하고 있다면 Hadoop MapReduce 프로그램에서 웹 로그를 처리하고 HDFS에 저장할 수 있으므로 hdfs를 통해 하이브 만 이동하십시오. 한편 Hive는 HDFS 위치의 데이터, 기본 SQL, 조인 및 일괄 데이터로드를 Hive 데이터베이스에 빠르게 읽도록 지원합니다. 하이브로서 우리에게도 제공합니다. 일괄 처리 / 실시간 SQL (가능한 경우)뿐만 아니라 SQL과 같은 인터페이스 최적화 된 map-reduce 내장 hdfs와 더 호환되는 큰 데이터를 분할하고 HBase의 레이어를 줄이는 데 도움이됩니다. 그렇지 않으면 여기에 HBase를 추가하면 중복됩니다. 당신을위한 기능 :)

    존경스럽게 말하지만 : 귀하의 데이터가 실제가 아니며 mapreduce 작업에 대해서도 생각하고 있다면 Hadoop MapReduce 프로그램에서 웹 로그를 처리하고 HDFS에 저장할 수 있으므로 hdfs를 통해 하이브 만 이동하십시오. 한편 Hive는 HDFS 위치의 데이터, 기본 SQL, 조인 및 일괄 데이터로드를 Hive 데이터베이스에 빠르게 읽도록 지원합니다. 하이브로서 우리에게도 제공합니다. 일괄 처리 / 실시간 SQL (가능한 경우)뿐만 아니라 SQL과 같은 인터페이스 최적화 된 map-reduce 내장 hdfs와 더 호환되는 큰 데이터를 분할하고 HBase의 레이어를 줄이는 데 도움이됩니다. 그렇지 않으면 여기에 HBase를 추가하면 중복됩니다. 당신을위한 기능 :)

  4. from https://stackoverflow.com/questions/11705562/hive-over-hbase-vs-hive-over-hdfs by cc-by-sa and MIT license