복붙노트

[HADOOP] RDBMS와의 Hadoop 비교

HADOOP

RDBMS와의 Hadoop 비교

정말 RDBMS보다 잘 확장 된 실제 이유를 이해하지 못합니다. 누구든지 세부적인 수준으로 설명해 주실 수 있습니까? 이것은 기본 데이터 구조 및 알고리즘과 관련이 있습니까?

해결법

  1. ==============================

    1.RDBMS는 거대한 테라 바이트 및 페타 바이트 데이터 볼륨을 처리하는 데 어려움이 있습니다. RAID (Redundant Array of Independent / Inexpensive Disks) 및 데이터 파쇄가 있더라도 엄청난 양의 데이터에 맞게 확장되지 않습니다. 매우 비싼 하드웨어가 필요합니다.

    RDBMS는 거대한 테라 바이트 및 페타 바이트 데이터 볼륨을 처리하는 데 어려움이 있습니다. RAID (Redundant Array of Independent / Inexpensive Disks) 및 데이터 파쇄가 있더라도 엄청난 양의 데이터에 맞게 확장되지 않습니다. 매우 비싼 하드웨어가 필요합니다.

    편집하다: 왜 RDBMS를 확장 할 수 없는지, RBDMS의 오버 헤드 (Overheads of RBDMS)를 살펴보십시오.

    벌채 반출. 로그 레코드 어셈블 및 모든 변경 사항 추적 데이터베이스 구조에서 성능이 저하됩니다. 로깅은 가능하지 않을 수 있습니다. 복구 가능성이 요구 사항이 아니거나 복구 가능성이 필요한 경우 필요 다른 수단 (예를 들어, 네트워크상의 다른 사이트)을 통해 제공된다.

    잠금. 전통적인 2 단계 잠금은 상당한 오버 헤드를 유발합니다. 데이터베이스 구조에 대한 모든 액세스는 별도의 엔티티 인 Lock Manager.

    래치. 다중 스레드 데이터베이스에서 많은 데이터 구조 액세스하기 전에 래치되어야합니다. 제거 기능과 단일 스레드 접근 방식이 눈에 has니다 성능에 미치는 영향.

    버퍼 관리. 메인 메모리 데이터베이스 시스템은 버퍼 풀을 통해 페이지에 액세스해야하며, 모든 레코드 액세스에서 간접 참조.

    Hadoop의 처리 방식 :

    Hadoop은 상용 하드웨어에서 실행될 수있는 분산 컴퓨팅 환경에서 대규모 데이터 세트의 처리를 지원하는 무료 Java 기반 프로그래밍 프레임 워크입니다. 방대한 양의 데이터를 저장하고 불러오는 데 유용합니다.

    이 확장 성과 효율성은 하둡 (Hadoop) 구현 스토리지 메커니즘 (HDFS) 및 처리 작업 (YARN 맵 축소 작업)으로 가능합니다. 확장 성 외에도 Hadoop은 저장된 데이터의 고 가용성을 제공합니다.

    확장 성, 고 가용성, 유연성을 갖춘 방대한 양의 데이터 (구조화 된 데이터, 비정형 데이터, 반 구조화 된 데이터) 처리가 Hadoop의 성공을위한 핵심 요소입니다.

    데이터는 수천 개의 노드에 저장되며 맵 축소 작업을 통해 (대부분의 경우) 데이터가 저장된 노드에서 처리가 수행됩니다. 처리 영역에 대한 데이터 지역성은 Hadoop의 주요 성공 영역 중 하나입니다.

    이는 이름 노드, 데이터 노드 및 자원 관리자로 달성되었습니다.

    Hadoop이이를 달성하는 방법을 이해하려면 HDFS 아키텍처, YARN 아키텍처 및 HDFS 연합과 같은 링크를 방문해야합니다.

    아직도 RDBMS는 기가비트 바이트 데이터에 대한 다중 쓰기 / 읽기 / 업데이트 및 일관된 ACID 트랜잭션에 적합합니다. Tera 바이트 및 Peta 바이트의 데이터 처리에는 적합하지 않습니다. Consistency, Availability의 두 가지가있는 NoSQL CAP 이론의 가용성 분할 속성은 몇 가지 유스 케이스에서 유용합니다.

    하지만 Hadoop은 ACID 속성을 사용한 실시간 트랜잭션 지원을 의미하지 않습니다. 일괄 처리 기능을 갖춘 비즈니스 인텔리전스보고 기능인 "한 번 읽고 여러 번 읽는"패러다임에 적합합니다.

    slideshare.net에서

    더 많은 관련 SE 문제를 살펴보십시오.

    NoSql과 관계형 데이터베이스

  2. ==============================

    2.첫째, hadoop은 DB 교체가 아닙니다.

    첫째, hadoop은 DB 교체가 아닙니다.

    RDBMS 스케일 수직 및 수평 스케일.

    즉, RDBMS를 두 배로 늘리려면 하드웨어에 이중 메모리, 이중 저장 장치 및 이중 CPU가 있어야합니다. 그것은 매우 비싸며 한계가 있습니다. 예를 들어 10TB 램이있는 서버는 없습니다. hadoop이 다르다면 값 비싼 에지 기술이 필요하지 않고 대신 몇 가지 필수 서버를 함께 사용하여 더 큰 서버를 시뮬레이션 할 수 있습니다 (일부 제한 사항 포함). 여러 노드에 10Tb의 램을 분산시킨 클러스터를 가질 수 있습니다.

    다른 장점은보다 강력한 새 서버를 구입하고 기존 서버를 폐기해야하는 대신 분산 시스템을 확장하려면 새 노드 만 클러스터에 추가해야한다는 것입니다.

  3. ==============================

    3.위의 설명과 관련하여 한 가지 문제는 병렬화 된 RDBMS에 값 비싼 하드웨어가 필요하다는 것입니다. Teridata와 Netezza는 특별한 하드웨어가 필요합니다. Greenplum과 Vertica는 상용 하드웨어에 장착 할 수 있습니다. (이제는 다른 사람들처럼 편향되어 있다는 것을 인정할 것입니다.) Greenplum이 매일 페타 바이트의 정보를 스캔하는 것을 보았습니다. (월마트는 마지막으로 열심히 최대 2.5 페타 바이트였습니다.) 나는 Hawq와 Impala 모두를 다뤘습니다. 구조화 된 데이터에서 동일한 작업을 수행하려면 약 30 % 더 많은 하드웨어가 필요합니다. Hbase는 덜 효율적입니다.

    위의 설명과 관련하여 한 가지 문제는 병렬화 된 RDBMS에 값 비싼 하드웨어가 필요하다는 것입니다. Teridata와 Netezza는 특별한 하드웨어가 필요합니다. Greenplum과 Vertica는 상용 하드웨어에 장착 할 수 있습니다. (이제는 다른 사람들처럼 편향되어 있다는 것을 인정할 것입니다.) Greenplum이 매일 페타 바이트의 정보를 스캔하는 것을 보았습니다. (월마트는 마지막으로 열심히 최대 2.5 페타 바이트였습니다.) 나는 Hawq와 Impala 모두를 다뤘습니다. 구조화 된 데이터에서 동일한 작업을 수행하려면 약 30 % 더 많은 하드웨어가 필요합니다. Hbase는 덜 효율적입니다.

    마법의은 스푼은 없습니다. 구조화 된 구조와 구조화되지 않은 구조가 모두 제 경험이었습니다. Hadoop은 대용량 데이터를 처리하고이를 통해 작은 시간 동안 스캔하는 데 적합합니다. 우리는 그것을로드 절차의 일부로 사용합니다. RDBMS는 매우 복잡한 쿼리로 동일한 데이터를 반복해서 스캔하는 것에 열중하고 있습니다.

    데이터를 사용하려면 항상 데이터를 구조화해야합니다. 그 구조화는 어딘가에 시간이 필요합니다. RDBMS 나 쿼리시에 넣기 전에 ether 구조체를 사용하십시오.

  4. ==============================

    4.RDBMS에서 데이터는 구조화되며 오히려 인덱싱됩니다. 특정 'n 번째'열의 데이터 검색은 전체 데이터베이스를로드 한 다음 'n 번째'열을 선택합니다.

    RDBMS에서 데이터는 구조화되며 오히려 인덱싱됩니다. 특정 'n 번째'열의 데이터 검색은 전체 데이터베이스를로드 한 다음 'n 번째'열을 선택합니다.

    Hadoop에서 Hive라고 말하면 전체 데이터 세트에서 특정 열만로드합니다. 전체적인 시간을 줄이는 분산 구조로 수행되는 Map reduce 프로그램에 의해 데이터 로딩이 더 많이 수행됩니다.

    따라서 Hadoop과 그 도구를 사용하면 두 가지 장점이 있습니다.

  5. from https://stackoverflow.com/questions/32538650/hadoop-comparison-to-rdbms by cc-by-sa and MIT license