복붙노트

[HADOOP] Hadoop 배포판의 차이점

HADOOP

Hadoop 배포판의 차이점

사용 가능한 다양한 Hadoop Distribution 간의 다양한 차이점을 설명 할 수 있습니까?

Apache Hadoop 배포판을 기준으로 사용합니다.

표준 Apache Hadoop 배포판에 비해 이러한 배포판 중 하나를 사용하는 데는 충분한 이유가 있습니까?

해결법

  1. ==============================

    1.면책 조항 : 나는 이번 여름 Cloudera에서 인턴으로 일했습니다 (그러나 가장 친한 친구 중 일부는 Yahoo!에 있습니다 :-))

    면책 조항 : 나는 이번 여름 Cloudera에서 인턴으로 일했습니다 (그러나 가장 친한 친구 중 일부는 Yahoo!에 있습니다 :-))

    야후 배포판은 클러스터의 일부 하위 집합에서 실행되는 Hadoop 20 버전입니다. 여기에는 안정성, 버그 수정 등을위한 일련의 패치가 포함되어 있습니다. rpm이나 debian 패키지와 같은 관리자 친화적 인 기능은 없습니다.

    Cloudera 배포판은 rpms 및 debs 패키지입니다 (소스도 제공됩니다). 이는 표준 방법 등을 통해 업데이트를 얻을 수 있음을 의미합니다. 안정성 및 버그 수정 패치도 포함됩니다. 끊임없이 유지 관리되고 있습니다 (야후는 그렇지 않다는 말은 아닙니다. 단지 github에 가서 마지막으로 업데이트했을 때 확인할 수있을 것입니다). 또한 돼지와 하이브를 포장합니다.

    Cloudera의 Hadoop 20 배포는 베타 버전이며 18 개는 안정된 것으로 간주됩니다 (Cloudera 블로그에서 더 자세히 설명 됨). 18 버전에는 Hive 및 Pig 패키지도 포함되어 있습니다. 20 가지의 경우 패치를 직접 만들면됩니다 (아직 패치가 있지만 20 가지를 지원하는 Pig 또는 Hive의 공식 릴리즈는 없습니다). 20 대의 Cloudera와 Yahoo 버전 사이에는 상당한 중복이있을 수 있습니다. 두 가지 모두 매니페스트를 제공하므로 확인할 수 있습니다. Cloudera의 배포판에 대한 최신 문서는 http://archive.cloudera.com에 있습니다.

    야후는 배포에 대한 지원을 제공하지 않습니다. 그들은 패치 된 버전을 커뮤니티에 서비스로 제공하므로 관심있는 사람들은 야후가 내부적으로 실행하는 것을 구축 할 수 있습니다. 야후 클러스터의 크기를 감안할 때 이는 특히 JIRA를 따르는 하둡 개발자가 아닌 경우 중요한 공헌입니다. Cloudera는 배포판을 상업적으로 지원할뿐 아니라 Hadoop 메일 링리스트를 통해 커뮤니티 지원을 제공하고, 배포판 관련 문제는 GetSatisfaction 페이지에서 지원합니다.

    두 버전은 바닐라 아파치 배포판과 상당히 다르다. 배포판 사이에 패치가 있기 때문에 (20 버전의 cloudera에는 60 개 이상의 패치가있다!).

  2. ==============================

    2.야후는 Apache Hadoop에 대한 자체 배포 및 집중을 중단했습니다.

    야후는 Apache Hadoop에 대한 자체 배포 및 집중을 중단했습니다.

    http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

    http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

    최근 HortonWorks (www.hortonworks.com)가 야후에서 분사되었습니다. 이제 HortonWorks는 야후와 달리 지원을 제공 할 것입니다.

    http://www.hortonworks.com/about-us/our-manifesto/

    Cloudera는 HortonWorks와 같은 라인을 따라 있습니다.

    http://www.cloudera.com/products-services/

    가장 큰 차이점은 HortonWorks가 Apache 배포판을 안정적이고 설치하기 쉽도록 만들고 싶어한다는 것입니다. 반면 Cloudera는 Apache Hadoop을 기반으로하는 자체 배포판 CDH *를 보유하고 있습니다.

  3. ==============================

    3.Apache Hadoop 대신 Cloudera, Hortonworks 또는 MapR과 같은 Hadoop 배포판을 선택하는 데는 여러 가지 이유가 있습니다. 두 가지 큰 장점은 도구 지원과 상업적 지원입니다. 또한 Pig, Hive 등과 같은 모든 Hadoop 프레임 워크를 오른쪽 및 호환 버전에서 "수집 및 통합"하는 데 많은 어려움이 있습니다.

    Apache Hadoop 대신 Cloudera, Hortonworks 또는 MapR과 같은 Hadoop 배포판을 선택하는 데는 여러 가지 이유가 있습니다. 두 가지 큰 장점은 도구 지원과 상업적 지원입니다. 또한 Pig, Hive 등과 같은 모든 Hadoop 프레임 워크를 오른쪽 및 호환 버전에서 "수집 및 통합"하는 데 많은 어려움이 있습니다.

    InfoQ에서 제 기사를보십시오. Apache Hadoop, Hadoop 배포판 및 Big Data Suite의 차이점 및 사용시기에 대해 설명합니다.

    http://www.infoq.com/articles/BigDataPlatform

    친애하는,

    Kai Wähner (@KaiWaehner, www.kai-waehner.de/blog)

  4. ==============================

    4.SquareCog는 다음을 제외한 거의 모든 지점에서 올바르게 작동합니다. Yahoo! 배포는 Yahoo!의 모든 프로덕션 클러스터에서 실행되는 것으로, 하위 집합이 아닙니다. 총 25,000 대가 넘는 시스템입니다. 야후! 배포에는 안정적이고 일관된 작동을 보장하는 데 필요한 포괄적 인 엔드 - 투 - 엔드 테스트가있었습니다. 다른 배포판은 패치를 적용하는 데 더 자유 롭기 때문에 더 많은 기능을 포함 할 수 있지만 광범위하게 테스트하지는 않았습니다.

    SquareCog는 다음을 제외한 거의 모든 지점에서 올바르게 작동합니다. Yahoo! 배포는 Yahoo!의 모든 프로덕션 클러스터에서 실행되는 것으로, 하위 집합이 아닙니다. 총 25,000 대가 넘는 시스템입니다. 야후! 배포에는 안정적이고 일관된 작동을 보장하는 데 필요한 포괄적 인 엔드 - 투 - 엔드 테스트가있었습니다. 다른 배포판은 패치를 적용하는 데 더 자유 롭기 때문에 더 많은 기능을 포함 할 수 있지만 광범위하게 테스트하지는 않았습니다.

  5. from https://stackoverflow.com/questions/1412590/hadoop-distribution-differences by cc-by-sa and MIT license