[HADOOP] HBase와 Hadoop / HDFS의 차이점
HADOOPHBase와 Hadoop / HDFS의 차이점
이것은 순진한 질문이지만 NoSQL 패러다임을 처음 접했고 그것에 대해 많이 알지 못합니다. 누군가가 HBase와 Hadoop의 차이점을 분명히 이해하도록 도와 주거나 차이점을 이해하는 데 도움이되는 몇 가지 지침을 제공하면 도움이 될 것입니다.
지금까지, 나는 약간의 연구와 acc. Hadoop은 HDFS에서 원시 덩어리의 데이터 (파일)로 작업 할 수있는 프레임 워크를 제공하고 HBase는 기본적으로 원시 데이터 덩어리 대신 구조화 된 데이터로 작동하는 Hadoop 이상의 데이터베이스 엔진입니다. Hbase는 SQL처럼 HDFS보다 논리적 인 계층을 제공합니다. 맞습니까?
Pls는 나를 고칠 자유롭게 느낀다.
감사.
해결법
-
==============================
1.Hadoop은 기본적으로 FS (Hadoop Distributed File System), 계산 프레임 워크 (MapReduce) 및 관리 브리지 (Yet Another Resource Negotiator)의 3 가지입니다. HDFS를 사용하면 분산 형 (대량 읽기 / 쓰기 액세스 제공) 및 중복 형 (가용성 향상) 방식으로 엄청난 양의 데이터를 저장할 수 있습니다. MapReduce를 사용하면 분산 된 병렬 방식으로이 거대한 데이터를 처리 할 수 있습니다. 하지만 MapReduce는 HDFS에만 국한되지 않습니다. FS이기 때문에, HDFS는 랜덤 읽기 / 쓰기 기능이 없습니다. 순차적 데이터 액세스에 좋습니다. 그리고 이것이 HBase가 등장하는 곳입니다. Hadoop 클러스터에서 실행되는 NoSQL 데이터베이스이며 데이터에 대한 임의의 실시간 읽기 / 쓰기 액세스를 제공합니다.
Hadoop은 기본적으로 FS (Hadoop Distributed File System), 계산 프레임 워크 (MapReduce) 및 관리 브리지 (Yet Another Resource Negotiator)의 3 가지입니다. HDFS를 사용하면 분산 형 (대량 읽기 / 쓰기 액세스 제공) 및 중복 형 (가용성 향상) 방식으로 엄청난 양의 데이터를 저장할 수 있습니다. MapReduce를 사용하면 분산 된 병렬 방식으로이 거대한 데이터를 처리 할 수 있습니다. 하지만 MapReduce는 HDFS에만 국한되지 않습니다. FS이기 때문에, HDFS는 랜덤 읽기 / 쓰기 기능이 없습니다. 순차적 데이터 액세스에 좋습니다. 그리고 이것이 HBase가 등장하는 곳입니다. Hadoop 클러스터에서 실행되는 NoSQL 데이터베이스이며 데이터에 대한 임의의 실시간 읽기 / 쓰기 액세스를 제공합니다.
Hadoop에는 구조화 된 데이터와 구조화되지 않은 데이터를 모두 저장할 수 있으며 HBase도 저장할 수 있습니다. 둘 다 쉘 및 기타 API와 같이 데이터에 액세스하는 여러 메커니즘을 제공합니다. HBase는 데이터를 키 / 값 쌍으로 컬럼 형식으로 저장하고 HDFS는 데이터를 플랫 파일로 저장합니다. 두 시스템의 두드러진 특징 중 일부는 다음과 같습니다.
하둡
HBase
Hadoop은 오프라인 일괄 처리에 가장 적합하며 HBase는 실시간 필요가있을 때 사용됩니다.
비슷한 비교는 MySQL과 Ext4 사이에있을 것입니다.
-
==============================
2.Apache Hadoop 프로젝트는 4 개의 핵심 모듈을 포함합니다.
Apache Hadoop 프로젝트는 4 개의 핵심 모듈을 포함합니다.
HBase는 대규모 테이블을위한 구조화 된 데이터 저장소를 지원하는 확장 가능한 분산 데이터베이스입니다. Bigtable이 Google File System에서 제공하는 분산 데이터 스토리지를 활용하는 것처럼 Apache HBase는 Hadoop 및 HDFS 위에 Bigtable과 유사한 기능을 제공합니다.
HBase를 사용해야하는 경우 :
하지만 HBase에는 몇 가지 제한 사항이 있습니다.
개요:
cloudera 블로그에서 Do 's 및 Do not of HBase를 살펴보십시오.
-
==============================
3.Hadoop은 대용량 데이터를 저장하기 위해 HDFS와 같은 분산 파일 시스템을 사용합니다. 그러나 이러한 제한을 극복하기 위해 HDFS 및 Inorder의 특정 제한이 있으며 HBase, Cassandra 및 Mongodb와 같은 NoSQL 데이터베이스가 생겨났습니다.
Hadoop은 대용량 데이터를 저장하기 위해 HDFS와 같은 분산 파일 시스템을 사용합니다. 그러나 이러한 제한을 극복하기 위해 HDFS 및 Inorder의 특정 제한이 있으며 HBase, Cassandra 및 Mongodb와 같은 NoSQL 데이터베이스가 생겨났습니다.
Hadoop은 일괄 처리 만 수행 할 수 있으며 데이터는 순차적 방식으로 만 액세스됩니다. 이는 가장 단순한 작업 일지라도 전체 데이터 세트를 검색해야한다는 것을 의미합니다. 거대한 데이터 세트는 처리 될 때 거대한 데이터 세트를 생성하며 순차적으로 처리해야합니다. 이 시점에서 단일 솔루션 단위 (임의 액세스)로 모든 데이터 지점에 액세스하려면 새로운 솔루션이 필요합니다.
다른 모든 FileSystem과 마찬가지로 HDFS는 스토리지를 제공하지만 복제로 인해 높은 처리량과 낮은 데이터 손실 위험으로 내결함성이 보장됩니다. 그러나 파일 시스템이므로 HDFS는 임의의 읽기 및 쓰기 액세스가 없습니다. 여기가 HBase의 모습입니다. Google의 BigTable을 모델로하여 배포되고 확장 가능한 대형 데이터 저장소입니다. 카산드라는 hbase와 다소 비슷합니다.
-
==============================
4.
HDFS는 대용량 파일의 저장에 매우 적합한 분산 파일 시스템입니다. 파일에서 빠른 개별 레코드 조회를 제공하지 않습니다.
반면 HBase는 HDFS 위에 구축되어 대형 테이블에 대한 빠른 기록 조회 (및 업데이트)를 제공합니다. 때때로 이것은 개념적 혼란의 한 지점 일 수 있습니다. HBase는 내부적으로 고속 조회를 위해 HDFS에있는 인덱싱 된 "StoreFiles"에 데이터를 저장합니다.
인프라 수준에서 클러스터에있는 각 축전기에는 다음과 같은 악마가 있습니다.
HBase는 다음 데이터 모델을 사용하여 HDFS (때로는 다른 분산 파일 시스템)를 기본 저장소로 신속하게 조회합니다.
클라이언트 읽기 요청 흐름 :
위의 그림에서 메타 테이블이란 무엇입니까?
출처 및 추가 정보 :
-
==============================
5.참조 : http://www.quora.com/What-is-the-difference-between-HBASE-and-HDFS-in-Hadoop
참조 : http://www.quora.com/What-is-the-difference-between-HBASE-and-HDFS-in-Hadoop
Hadoop은 여러 하위 시스템의 일반적인 이름입니다. 1) HDFS. 이중화 등을 처리하는 컴퓨터의 클러스터에 데이터를 분산시키는 분산 파일 시스템 2) 맵 축소. HDFS 위에있는 작업 관리 시스템 - HDFS에 저장된 데이터를 처리하는지도 축소 (및 기타 유형) 작업을 관리합니다.
기본적으로 이는 오프라인 시스템을 의미합니다. HDFS에 데이터를 저장하고 작업을 실행하여 데이터를 처리 할 수 있습니다.
반면 컬럼 기반 데이터베이스에서 HBase. 그것은 HDFS를 스토리지로 사용합니다. 이것은 백업 \ 리던던시 \ etc를 처리하지만 "온라인 스토어"를 의미합니다. 즉, 특정 행 / 행 등에 대해 쿼리하여 즉각적인 가치를 얻을 수 있습니다.
from https://stackoverflow.com/questions/16929832/difference-between-hbase-and-hadoop-hdfs by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] OSX의 Hadoop "SCDynamicStore에서 영역 정보를로드 할 수 없습니다" (0) | 2019.05.30 |
---|---|
[HADOOP] Hive cluster 대 vs order by vs 정렬 기준 (0) | 2019.05.30 |
[HADOOP] OOZIE : global job-xml에서 참조 된 파일에 정의 된 속성이 workflow.xml에 표시되지 않습니다. (0) | 2019.05.30 |
[HADOOP] Sqoop - 데이터 분할 (0) | 2019.05.30 |
[HADOOP] 내 BroadcastHashJoin이 Spark의 ShuffledHashJoin보다 느린 이유 (0) | 2019.05.30 |