[SQL] dataframe 기능 대 스파크 SQL 쿼리
SQLdataframe 기능 대 스파크 SQL 쿼리
스파크 좋은 성능을 수행합니다. 나는는 SqlContext를 통해 SQL 쿼리를 사용하는 것이 좋다 경우 궁금 해요 또는이 df.select 같은 DataFrame 기능을 통해 쿼리를 수행하는 것이 좋습니다 경우 ().
어떤 생각? :)
해결법
-
==============================
1.성능에 차이 전혀 없다. 두 가지 방법 모두 정확히 같은 실행 엔진 및 내부 데이터 구조를 사용합니다. 하루의 끝에서 모든 개인 환경 설정에 요약된다.
성능에 차이 전혀 없다. 두 가지 방법 모두 정확히 같은 실행 엔진 및 내부 데이터 구조를 사용합니다. 하루의 끝에서 모든 개인 환경 설정에 요약된다.
-
==============================
2.DataFrame를 사용하여, 하나는 디버깅을 쉽게 향상 및 코드를 유지 보수하는 데 도움이 여러 문 / 쿼리로 SQL을 깰 수 있습니다.
DataFrame를 사용하여, 하나는 디버깅을 쉽게 향상 및 코드를 유지 보수하는 데 도움이 여러 문 / 쿼리로 SQL을 깰 수 있습니다.
간단한 쿼리로 복잡한 SQL 쿼리를 실연하고 DF가 더 나은 이해를 제공 할 수있는 결과를 할당.
DFS 복수로 분할 쿼리에 의해, 현상 제는 배상 캐시를 사용하는 이점을 얻을 수 (고유 / 근접하는 고유 키를 이용하여 상기 분할 영역에 걸쳐 균일 데이터를 분산).
-
==============================
3.이상적으로는 스파크의 촉매는 같은 실행 계획에 모두 전화를 최적화해야하며, 성능은 동일해야합니다. 어떻게 전화로 당신의 스타일의 문제입니다. 실제로, 호튼 웍스의보고에 따라 차이가있다 (https://community.hortonworks.com/articles/42027/rdd-vs-dataframe-vs-sparksql.html) 여기서 SQL 성능이 뛰어 Dataframes을 경우를 때 필요 SORT 기록 이름으로 DESCENDING되는 총 건의 기록을 그룹화합니다.
이상적으로는 스파크의 촉매는 같은 실행 계획에 모두 전화를 최적화해야하며, 성능은 동일해야합니다. 어떻게 전화로 당신의 스타일의 문제입니다. 실제로, 호튼 웍스의보고에 따라 차이가있다 (https://community.hortonworks.com/articles/42027/rdd-vs-dataframe-vs-sparksql.html) 여기서 SQL 성능이 뛰어 Dataframes을 경우를 때 필요 SORT 기록 이름으로 DESCENDING되는 총 건의 기록을 그룹화합니다.
from https://stackoverflow.com/questions/35222539/spark-sql-queries-vs-dataframe-functions by cc-by-sa and MIT license
'SQL' 카테고리의 다른 글
[SQL] 날짜 시간 데이터 유형에 VARCHAR 데이터 형식의 변환이 범위를 벗어난 값 초래 (0) | 2020.04.15 |
---|---|
[SQL] 왜 SQL 서버는이 오류를 던지고있다 : 열 'ID'에 NULL 값을 삽입 할 수 없습니다? (0) | 2020.04.15 |
[SQL] 분할 다중 행으로 SQL 열의 값을 구분 (0) | 2020.04.15 |
[SQL] 2 개 날짜 매개 변수를 포함하는 가장 쉬운 사이의 날짜와 임시 테이블을 채우는 방법 및 (0) | 2020.04.15 |
[SQL] 어떻게 MySQL의에서 슬래시 (\)를 검색하려면? (\) 이스케이프 왜 요구되는 경우 (=)하지만처럼을 위해 필요하지? (0) | 2020.04.15 |