복붙노트

[HADOOP] 아파치 드릴 vs 스파크

HADOOP

아파치 드릴 vs 스파크

나는 Apache Spark와 Spark-SQL에 대해 약간의 경험이있다. 최근 Apache Drill 프로젝트를 발견했습니다. 가장 중요한 장점 / 차이점은 무엇입니까? 나는 이미 읽었습니다. Fast Hadoop Analytics (Cloudera Impala 대 Spark / Shark 대 Apache Drill) 그러나이 주제는 나에게 아직도 불분명하다.

해결법

  1. ==============================

    1.다음은 몇 가지 SQL 기술에 대한 기사입니다. http://www.zdnet.com/article/sql-and-hadoop-its-complicated/

    다음은 몇 가지 SQL 기술에 대한 기사입니다. http://www.zdnet.com/article/sql-and-hadoop-its-complicated/

    드릴은 사용자의 경험과 아키텍처면에서 근본적으로 다릅니다. 예 :

    Drill 1.0이 방금 출시되었습니다 (2015 년 5 월 19 일). 어떤 인프라 (Hadoop, NoSQL 등)없이 랩톱에 쉽게 다운로드하여 사용할 수 있습니다.

  2. ==============================

    2.Drill은 ANSI SQL을 사용하여 여러 종류의 데이터 집합을 쿼리 할 수있는 기능을 제공합니다. 따라서 Adhoc 데이터 탐색에 유용하며 ODBC를 통해 BI 도구를 데이터 집합에 연결할 수 있습니다. Drill to SQL을 사용하여 다양한 종류의 데이터 세트를 조인 할 수도 있습니다. 예를 들어, JSON 파일이나 CSV 파일, OpenTSDB 또는 MapR-DB의 행을 사용하여 MySQL 테이블의 레코드를 조인 할 수 있습니다. 드릴은 다양한 유형의 데이터에 연결할 수 있습니다.

    Drill은 ANSI SQL을 사용하여 여러 종류의 데이터 집합을 쿼리 할 수있는 기능을 제공합니다. 따라서 Adhoc 데이터 탐색에 유용하며 ODBC를 통해 BI 도구를 데이터 집합에 연결할 수 있습니다. Drill to SQL을 사용하여 다양한 종류의 데이터 세트를 조인 할 수도 있습니다. 예를 들어, JSON 파일이나 CSV 파일, OpenTSDB 또는 MapR-DB의 행을 사용하여 MySQL 테이블의 레코드를 조인 할 수 있습니다. 드릴은 다양한 유형의 데이터에 연결할 수 있습니다.

    Spark을 사용할 때 RDD (복원 된 분산 데이터 세트)에 사용하기를 원합니다. RDD를 사용하면 많은 양의 데이터를 신속하게 처리 할 수 ​​있습니다. Spark에는 ML 및 스트리밍을위한 많은 라이브러리가 있습니다. 드릴은 데이터를 전혀 처리하지 않습니다. 그냥 당신이 말한 데이터에 액세스 할 수 있습니다. Drill을 사용하여 데이터를 Spark 또는 Tensorflow, PySpark 또는 Tableau 등으로 가져올 수 있습니다.

  3. from https://stackoverflow.com/questions/29790655/apache-drill-vs-spark by cc-by-sa and MIT license