복붙노트

[HADOOP] 대규모 데이터 처리 Hbase 대 카산드라 [폐쇄]

HADOOP

대규모 데이터 처리 Hbase 대 카산드라 [폐쇄]

대규모 데이터 저장 솔루션에 대한 연구가 끝나면 Cassandra에 거의 도착했습니다. 그러나 일반적으로 Hbase는 대규모 데이터 처리 및 분석을위한 더 나은 솔루션이라고합니다.

두 가지 모두 키 / 값 저장이 동일하고 둘 다 실행할 수 있지만 (Cassandra 최근에) Hadoop 계층은 대용량 데이터에서 처리 / 분석이 필요할 때 Hadoop을 더 나은 후보자로 만듭니다.

나는 또한 둘 다에 대한 좋은 세부 사항을 발견했다. http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/

하지만 여전히 Hbase의 구체적인 이점을 찾고 있습니다.

Cassandra는 노드 추가 및 단순 복제 및 장애 지점 기능이없는 단순성 때문에 더 확신합니다. 또한 보조 색인 기능을 유지하므로 좋은 결과를 얻을 수 있습니다.

해결법

  1. ==============================

    1.당신에게 가장 적합한 것이 무엇인지를 결정하는 것은 당신이 그것을 사용하려고하는 것에 달려 있습니다. 그들은 각각의 장점을 가지고 있으며, 더 이상의 세부 사항없이 종교적인 전쟁을 더합니다. 참조한 게시물도 1 년 이상되었으며 두 가지 모두 그 이후로 많은 변화를 겪었습니다. 또한 최근의 카산드라 개발에 익숙하지 않다는 것을 명심하십시오.

    당신에게 가장 적합한 것이 무엇인지를 결정하는 것은 당신이 그것을 사용하려고하는 것에 달려 있습니다. 그들은 각각의 장점을 가지고 있으며, 더 이상의 세부 사항없이 종교적인 전쟁을 더합니다. 참조한 게시물도 1 년 이상되었으며 두 가지 모두 그 이후로 많은 변화를 겪었습니다. 또한 최근의 카산드라 개발에 익숙하지 않다는 것을 명심하십시오.

    그렇게 말하면서 HBase 커미터 인 앤드류 퍼 텔 (Andrew Purtell)을 의역하고 내 자신의 경험을 덧붙일 것입니다.

  2. ==============================

    2.카산드라 (Cassandra) 개발자로서 나는 그 질문의 반대편에 대답하는 것이 더 낫다.

    카산드라 (Cassandra) 개발자로서 나는 그 질문의 반대편에 대답하는 것이 더 낫다.

    HBase가 현재 가지고있는 가장 큰 장점은 HBase 0.90.4와 Cassandra 0.8.4입니다. Cassandra는 아직 투명한 데이터 압축을 지원하지 않습니다. HBase는 Hadoop 일괄 처리로 수행되는 범위 스캔의 종류에 대해 더 잘 최적화 될 수 있습니다 (이 기능은 10 월 초에 Cassandra 1.0에 추가되었으므로 10 월 초에 추가되었지만 현재 HBase의 실질적인 이점입니다).

    또한 반드시 좋지는 않거나 더 나쁘다는 점이 있습니다. HBase는 각 열의 암시 적 버전 관리가 이루어지는 Bigtable 데이터 모델을 엄격하게 준수합니다. Cassandra는 버전 관리를 중단하고 대신 SuperColumns를 추가합니다.

    희망이 도움이됩니다!

  3. ==============================

    3.100 노드 hBase 클러스터를 사용하는 이유는 HBase가 더 큰 크기로 확장되지 않기 때문이 아닙니다. 전체 서비스를 중단하지 않으면 서 롤링 방식으로 hBase / HDFS 소프트웨어 업그레이드를하는 것이 더 쉽기 때문입니다. 또 다른 이유는 단일 NameNode가 전체 서비스에 대한 SPOF가되는 것을 방지하는 것입니다. 또한 HBase는 FB 메시지뿐만 아니라 다양한 서비스에 사용되고 있으며 100 노드 노드 방식으로 수많은 HBase 클러스터를 설정하는 데 쿠키 커터 (cookie-cutter) 방식을 사용하는 것이 좋습니다. 100이라는 숫자는 특별합니다. 우리는 100이 최적인지 아닌지에 초점을 맞추지 않았습니다.

    100 노드 hBase 클러스터를 사용하는 이유는 HBase가 더 큰 크기로 확장되지 않기 때문이 아닙니다. 전체 서비스를 중단하지 않으면 서 롤링 방식으로 hBase / HDFS 소프트웨어 업그레이드를하는 것이 더 쉽기 때문입니다. 또 다른 이유는 단일 NameNode가 전체 서비스에 대한 SPOF가되는 것을 방지하는 것입니다. 또한 HBase는 FB 메시지뿐만 아니라 다양한 서비스에 사용되고 있으며 100 노드 노드 방식으로 수많은 HBase 클러스터를 설정하는 데 쿠키 커터 (cookie-cutter) 방식을 사용하는 것이 좋습니다. 100이라는 숫자는 특별합니다. 우리는 100이 최적인지 아닌지에 초점을 맞추지 않았습니다.

  4. from https://stackoverflow.com/questions/7237271/large-scale-data-processing-hbase-vs-cassandra by cc-by-sa and MIT license