복붙노트

[SQL] dataframe 기능 대 스파크 SQL 쿼리

SQL

dataframe 기능 대 스파크 SQL 쿼리

스파크 좋은 성능을 수행합니다. 나는는 SqlContext를 통해 SQL 쿼리를 사용하는 것이 좋다 경우 궁금 해요 또는이 df.select 같은 DataFrame 기능을 통해 쿼리를 수행하는 것이 좋습니다 경우 ().

어떤 생각? :)

해결법

  1. ==============================

    1.성능에 차이 전혀 없다. 두 가지 방법 모두 정확히 같은 실행 엔진 및 내부 데이터 구조를 사용합니다. 하루의 끝에서 모든 개인 환경 설정에 요약된다.

    성능에 차이 전혀 없다. 두 가지 방법 모두 정확히 같은 실행 엔진 및 내부 데이터 구조를 사용합니다. 하루의 끝에서 모든 개인 환경 설정에 요약된다.

  2. ==============================

    2.DataFrame를 사용하여, 하나는 디버깅을 쉽게 향상 및 코드를 유지 보수하는 데 도움이 여러 문 / 쿼리로 SQL을 깰 수 있습니다.

    DataFrame를 사용하여, 하나는 디버깅을 쉽게 향상 및 코드를 유지 보수하는 데 도움이 여러 문 / 쿼리로 SQL을 깰 수 있습니다.

    간단한 쿼리로 복잡한 SQL 쿼리를 실연하고 DF가 더 나은 이해를 제공 할 수있는 결과를 할당.

    DFS 복수로 분할 쿼리에 의해, 현상 제는 배상 캐시를 사용하는 이점을 얻을 수 (고유 / 근접하는 고유 키를 이용하여 상기 분할 영역에 걸쳐 균일 데이터를 분산).

  3. ==============================

    3.이상적으로는 스파크의 촉매는 같은 실행 계획에 모두 전화를 최적화해야하며, 성능은 동일해야합니다. 어떻게 전화로 당신의 스타일의 문제입니다. 실제로, 호튼 웍스의보고에 따라 차이가있다 (https://community.hortonworks.com/articles/42027/rdd-vs-dataframe-vs-sparksql.html) 여기서 SQL 성능이 뛰어 Dataframes을 경우를 때 필요 SORT 기록 이름으로 DESCENDING되는 총 건의 기록을 그룹화합니다.

    이상적으로는 스파크의 촉매는 같은 실행 계획에 모두 전화를 최적화해야하며, 성능은 동일해야합니다. 어떻게 전화로 당신의 스타일의 문제입니다. 실제로, 호튼 웍스의보고에 따라 차이가있다 (https://community.hortonworks.com/articles/42027/rdd-vs-dataframe-vs-sparksql.html) 여기서 SQL 성능이 뛰어 Dataframes을 경우를 때 필요 SORT 기록 이름으로 DESCENDING되는 총 건의 기록을 그룹화합니다.

  4. from https://stackoverflow.com/questions/35222539/spark-sql-queries-vs-dataframe-functions by cc-by-sa and MIT license