스파크 dataframe 그룹화는 널 (null)을 계산하지 않습니다

I는 카운트 집계 열에 의해 그룹화 스파크 DataFrame있다 :

df.groupBy('a').agg(count("a")).show

+---------+----------------+
|a        |count(a)        |
+---------+----------------+
|     null|               0|
|      -90|           45684|
+---------+----------------+


df.select('a').filter('aisNull').count

보고

warning: there was one feature warning; re-run with -feature for details
res9: Long = 26834

명확하게하는 널 (null) 값이 처음에 계산되지 않았 음을 보여줍니다.

이 동작에 대한 이유는 무엇입니까? 제대로 카운트를보고 (모든 그룹화 결과에 포함 nullat 경우) 내가 예상했을 것이다.

해결법

==============================
1.예, 수는 널 값을 계산하지 않습니다 특정 컬럼에 적용. 당신은 널 값을 포함 할 경우, 사용 :

예, 수는 널 값을 계산하지 않습니다 특정 컬럼에 적용. 당신은 널 값을 포함 할 경우, 사용 :
```
df.groupBy('a).agg(count("*")).show
```
==============================
2.SQL-92 표준. 특히 (강조 광산)에서 :

SQL-92 표준. 특히 (강조 광산)에서 :
==============================
3.value_counts (dropna이 False =) pyspark의 상당 :

value_counts (dropna이 False =) pyspark의 상당 :
```
from pyspark.sql import functions as f
df.groupBy('a').agg(f.count('*')).orderBy('count(1)',ascending=False).show()
```

from https://stackoverflow.com/questions/46276219/spark-dataframe-groupping-does-not-count-nulls by cc-by-sa and MIT license

'SQL' 카테고리의 다른 글

[SQL] 한 열에서 여러 행을 삽입하는 방법 [마감] (0)	2020.07.19
[SQL] SqlCommand를 INSERT INTO 쿼리가 실행되지 않습니다 (0)	2020.07.19
[SQL] 고유의 페이지 뷰를 추적하기위한 PHP 세션 (0)	2020.07.19
[SQL] 즉 임의의 숫자를 변환 [중복] (0)	2020.07.19
[SQL] 외래 키 제약 조건의 참조 필드 (들)을 찾기 (0)	2020.07.19

복붙노트

[SQL] 스파크 dataframe 그룹화는 널 (null)을 계산하지 않습니다

스파크 dataframe 그룹화는 널 (null)을 계산하지 않습니다

해결법

1.예, 수는 널 값을 계산하지 않습니다 특정 컬럼에 적용. 당신은 널 값을 포함 할 경우, 사용 :

2.SQL-92 표준. 특히 (강조 광산)에서 :

3.value_counts (dropna이 False =) pyspark의 상당 :

'SQL' 카테고리의 다른 글

티스토리툴바