복붙노트

[HADOOP] 하이브는 스파크보다 빠릅니까?

HADOOP

하이브는 스파크보다 빠릅니까?

하이브 란 무엇인가, 그것이 데이터베이스인가?를 읽은 후 동료는 어제 15B 테이블을 필터링 할 수 있었으며 "그룹 바이"를 수행 한 후 다른 테이블과 조인 할 수 있다고 언급하면서 불과 10 분 만에 6B 레코드가 생성되었습니다! 필자는 이것이 Spark에서 더 느린 지 궁금해합니다. DataFrames가 있기 때문에 필적 할 수는 있지만 확실하지 않습니다. 따라서 질문입니다.

하이브는 스파크보다 빠릅니까? 아니면이 질문에는 의미가 없습니까? 미안, 내 무지 때문에.

그는 하이브 (Tez)를 사용하는 것으로 보이는 최신 하이브를 사용합니다.

해결법

  1. ==============================

    1.Hive는 MapReduce 유형의 작업 부하에 SQL 기능을 제공하는 프레임 워크 일뿐입니다.

    Hive는 MapReduce 유형의 작업 부하에 SQL 기능을 제공하는 프레임 워크 일뿐입니다.

    이러한 워크로드는 맵 축소 또는 원사에서 실행될 수 있습니다.

    그래서 하이브를 tez와 비교해 하이브를 스파크에 비교합니다. 이 기사를 토론 한 멋진 기사 Tez VS를 사용하여 Hive에서 ETL을 사용하는 경우 Spark ETL을 언제 사용합니까? (요지는 확실하지 않으면 스파크에 하이브를 사용합니다.)

    더 좋게 낮추십시오.

  2. ==============================

    2.Spark은 편리하지만 SQL 성능과 관련하여 모든 것을 잘 처리하지 못합니다.

    Spark은 편리하지만 SQL 성능과 관련하여 모든 것을 잘 처리하지 못합니다.

    하이브는 공동 파티셔닝 된 조인을 놀라 울 정도로 지원합니다. 합류하는 테이블에 수억 ~ 수십억 개의 행이 있으면 다음을 통해 세분화 된 조인 지원에 정말 감사 할 것입니다.

    Hive는 메타 데이터 전용 쿼리를 광범위하게 지원합니다. Spark는 2.1 이후

    파티션의 수가 10K +를 초과하면 Spark의 스팀이 빨리 소모됩니다. 하이브는 이러한 한계를 겪지 않습니다.

  3. ==============================

    3.하이브는 2018 년에 SparkSQL보다 훨씬 빠른 (그리고보다 안정적인) 동시 환경에서 특히 다음과 같은 기사를 읽었습니다.

    하이브는 2018 년에 SparkSQL보다 훨씬 빠른 (그리고보다 안정적인) 동시 환경에서 특히 다음과 같은 기사를 읽었습니다.

    https://mr3.postech.ac.kr/blog/2018/10/31/performance-evaluation-0.4/

    이 기사에서는 세 개의 클러스터 (11 개 노드, 21 개 노드, 42 개 노드)를 사용하는 TPC-DS 벤치 마크 (1TB, 3TB, 10TB)를 사용하여 여러 SQL-on-Hadoop 시스템을 비교합니다.

    따라서 Hive 기반 시스템 및 Presto와 비교할 때 SparkSQL은 매우 느리고 동시 환경에서 확장되지 않습니다. (이 실험은 vanilla Spark에서 실행되는 SparkSQL을 사용합니다.)

  4. from https://stackoverflow.com/questions/39416007/is-hive-faster-than-spark by cc-by-sa and MIT license