[HADOOP] HBase 대 하이브 대 HDFS 대 하이브
HADOOPHBase 대 하이브 대 HDFS 대 하이브
내 데이터를 실시간으로로드 할 필요가 없으므로 HBASE를 사용할 필요가 없지만 MR 작업에서 HBASE를 사용하면 성능 이점이 있는지 궁금합니다. 인덱싱 된 데이터로 인해 조인이 더 빨라지면 안됩니까?
벤치 마크가있는 사람이 있습니까?
해결법
-
==============================
1.일반적으로 하이브 / hdfs는 HBase보다 훨씬 빠릅니다. HBase는 HDFS 위에 위치하여 다른 레이어를 추가합니다. HBase는 개별 레코드를 검색하는 경우 더 빠르지 만 MR 레코드를 사용하지는 않습니다.
일반적으로 하이브 / hdfs는 HBase보다 훨씬 빠릅니다. HBase는 HDFS 위에 위치하여 다른 레이어를 추가합니다. HBase는 개별 레코드를 검색하는 경우 더 빠르지 만 MR 레코드를 사용하지는 않습니다.
-
==============================
2.HBase 대 하이브의 성능 :
HBase 대 하이브의 성능 :
Hbase에서 HBase, Hive 및 Hive의 결과를 기반으로하면 두 방법 사이의 성능은 비슷합니다.
HBase 성능에 관한 하이브
-
==============================
3.존경스럽게 말하지만 : 귀하의 데이터가 실제가 아니며 mapreduce 작업에 대해서도 생각하고 있다면 Hadoop MapReduce 프로그램에서 웹 로그를 처리하고 HDFS에 저장할 수 있으므로 hdfs를 통해 하이브 만 이동하십시오. 한편 Hive는 HDFS 위치의 데이터, 기본 SQL, 조인 및 일괄 데이터로드를 Hive 데이터베이스에 빠르게 읽도록 지원합니다. 하이브로서 우리에게도 제공합니다. 일괄 처리 / 실시간 SQL (가능한 경우)뿐만 아니라 SQL과 같은 인터페이스 최적화 된 map-reduce 내장 hdfs와 더 호환되는 큰 데이터를 분할하고 HBase의 레이어를 줄이는 데 도움이됩니다. 그렇지 않으면 여기에 HBase를 추가하면 중복됩니다. 당신을위한 기능 :)
존경스럽게 말하지만 : 귀하의 데이터가 실제가 아니며 mapreduce 작업에 대해서도 생각하고 있다면 Hadoop MapReduce 프로그램에서 웹 로그를 처리하고 HDFS에 저장할 수 있으므로 hdfs를 통해 하이브 만 이동하십시오. 한편 Hive는 HDFS 위치의 데이터, 기본 SQL, 조인 및 일괄 데이터로드를 Hive 데이터베이스에 빠르게 읽도록 지원합니다. 하이브로서 우리에게도 제공합니다. 일괄 처리 / 실시간 SQL (가능한 경우)뿐만 아니라 SQL과 같은 인터페이스 최적화 된 map-reduce 내장 hdfs와 더 호환되는 큰 데이터를 분할하고 HBase의 레이어를 줄이는 데 도움이됩니다. 그렇지 않으면 여기에 HBase를 추가하면 중복됩니다. 당신을위한 기능 :)
from https://stackoverflow.com/questions/11705562/hive-over-hbase-vs-hive-over-hdfs by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] modify hadoop-env.sh를 제외하고 hadoop에서 시스템 속성을 지정하는 방법? (0) | 2019.07.24 |
---|---|
[HADOOP] org.apache.hadoop.security.AccessControlException : EC2에서 Hadoop Java API를 사용하여 S3 버킷을 통해 S3 버킷에 액세스하려고하면 권한이 거부되었습니다. (0) | 2019.07.24 |
[HADOOP] HIVE의 분산 캐시에 여러 파일 추가 (0) | 2019.07.24 |
[HADOOP] 'yarn application -list'는 결과를 보여주지 못한다. (0) | 2019.07.24 |
[HADOOP] R : 직렬화 된 개체에서 CSV 만들기 (0) | 2019.07.24 |