[SCALA] 문자열에 필터 스파크 DataFrame는 포함

2019. 11. 6. 17:30

cnpnote

SCALA

문자열에 필터 스파크 DataFrame는 포함

나는 1.0.0 브로 스파크 1.3.0 및 스파크를 사용하고 있습니다. 나는 저장소 페이지의 예에서 일하고 있습니다. 이 다음 코드는 잘 작동합니다

val df = sqlContext.read.avro("src/test/resources/episodes.avro")
df.filter("doctor > 5").write.avro("/tmp/output")

의사 문자열이 문자열을 포함하는 경우하지만 필요한 경우 무엇을 볼 수? 우리는 문자열의 내부에 우리의 표현을 쓰고 있기 때문이다. 나는 "포함"는 무엇을해야합니까?

해결법

==============================
1.당신이 사용할 수있는은 (임의의 순서로이 작품을) 포함

당신이 사용할 수있는은 (임의의 순서로이 작품을) 포함
```
df.filter($"foo".contains("bar"))
```
추천 (_ 임의의 문자와 일치 %는 임의의 순서와 일치 파크 SQL 간단한 정규식과 같은 SQL)
```
df.filter($"foo".like("bar"))
```
또는 (자바 정규 표현식처럼) rlike :
```
df.filter($"foo".rlike("bar"))
```
요구 사항에 따라. LIKE와 RLIKE뿐만 아니라 SQL 식으로 작동합니다.
==============================
2.pyspark에서, SparkSql 구문 :

pyspark에서, SparkSql 구문 :
```
where column_n like 'xyz%'
```
작동하지 않을 수 있습니다.

사용하다:
```
where column_n RLIKE '^xyz' 
```
이것은 완벽하게 잘 작동합니다.

from https://stackoverflow.com/questions/35759099/filter-spark-dataframe-on-string-contains by cc-by-sa and MIT license

'SCALA' 카테고리의 다른 글

[SCALA] 스칼라 클래스 생성자 매개 변수 (0)	2019.11.06
[SCALA] 2.4 재생 : 양식 : 매개 변수 메시지에 대한 암시 적 가치를 찾을 수 없습니다 : play.api.i18n.Messages를 (0)	2019.11.06
[SCALA] 왜 빈 문자열에 "분할"비어 있지 않은 배열을 반환합니까? (0)	2019.11.06
[SCALA] 스칼라 / 스파크 : 마지막 관찰과 앞으로 채우기 (0)	2019.11.06
[SCALA] 스칼라에서 선형화 순서 (0)	2019.11.06

,

티스토리툴바