[SQL] 맞춤법의 차이와 유사한 단어를 인식하는 방법
SQL맞춤법의 차이와 유사한 단어를 인식하는 방법
나는 데이터베이스에서 중복 된 고객 이름을 필터링 할. 단일 고객은 하나 개 이상의 동일한 이름을 가진 시스템에 입력하지만 맞춤법에 약간의 차이가있을 수 있습니다. 그래서 여기 예입니다 : 브룩라는 고객이 시스템에 세 가지 항목이있을 수 있습니다 이 변화와 :
이제 우리는 하나의 데이터베이스 열에서이 이름을 가하고 있습니다 가정 해 봅시다. 나는 그런 중복은 10 만 개 기록을 말할 형성 식별하기 위해 다른 메커니즘을 알고 싶습니다. 우리는 모든 레코드 또는 다른 패턴 매칭 기법을 반복하는 C #에서 정규 표현식을 사용할 수 있습니다 또는 우리는 이러한 기록을 내보낼 수 있습니다 무엇을 (정규 표현식 기능을 SQL) 이러한 쿼리에 대한 이제까지 가장 적합).
이것은 내가 솔루션으로 무슨 생각입니다
그래서 어떤 아이디어를 전달하시기 바랍니다.
해결법
-
==============================
1.2000 년에 발표 된 더블 메타 폰 알고리즘은, 1918 년에 특허 된 Soundex와 알고리즘의 새롭게 향상된 버전입니다.
2000 년에 발표 된 더블 메타 폰 알고리즘은, 1918 년에 특허 된 Soundex와 알고리즘의 새롭게 향상된 버전입니다.
이 기사는 여러 언어를 두 번 메타 폰 구현에 대한 링크가 있습니다.
-
==============================
2.Soundex와에서보세요
Soundex와에서보세요
거래-SQL에서 Soundex와 기능 (http://msdn.microsoft.com/en-us/library/ms187384.aspx 참조)가있다 :
SELECT SOUNDEX('brook berta'), SOUNDEX('Bruck Berta'), SOUNDEX('Biruk Berta')
예시 값의 각각에 대해 동일한 값을 반환 B620
-
==============================
3.문자열의 유사성을 찾기위한 설립, 분명 (잘 문서화) 알고리즘은 다음과 같습니다 :
문자열의 유사성을 찾기위한 설립, 분명 (잘 문서화) 알고리즘은 다음과 같습니다 :
-
==============================
4.나는 "유명한"파이썬 맞춤법 검사기와 같은 뭔가를 쓰는 고려할 것입니다.
나는 "유명한"파이썬 맞춤법 검사기와 같은 뭔가를 쓰는 고려할 것입니다.
http://norvig.com/spell-correct.html
이 등, 편지를 교환, 문자를 추가하는 말을 누락 문자를 기반으로 모든 가능한 대안을 찾을 것입니다
-
==============================
5.당신은 음성 유사성 알고리즘 구글 할 수 있습니다 그리고 당신은이에 대한 많은 정보를 찾을 수 있습니다. C #에서 솔루션을 구현하는 방법에 대한 CodeProject의에이 기사를 포함.
당신은 음성 유사성 알고리즘 구글 할 수 있습니다 그리고 당신은이에 대한 많은 정보를 찾을 수 있습니다. C #에서 솔루션을 구현하는 방법에 대한 CodeProject의에이 기사를 포함.
-
==============================
6.사운 덱스에 봐. 그것은, 즉 당신이 무엇을 필요로하지 알고리즘 음성 유사성을 식별하는 대부분의 언어에서 꽤 표준 라이브러리입니다. http://en.wikipedia.org/wiki/Soundex
사운 덱스에 봐. 그것은, 즉 당신이 무엇을 필요로하지 알고리즘 음성 유사성을 식별하는 대부분의 언어에서 꽤 표준 라이브러리입니다. http://en.wikipedia.org/wiki/Soundex
-
==============================
7.기록 연동을위한 패키지 (단지 구글에서 "R"로 검색) 아주 좋은 R이있다. 표준 예는 정확하게 문제를 대상 : R RecordLinkage를
기록 연동을위한 패키지 (단지 구글에서 "R"로 검색) 아주 좋은 R이있다. 표준 예는 정확하게 문제를 대상 : R RecordLinkage를
Soundex와 등의 C-코드의 PostgreSQL에서 직접 촬영!
-
==============================
8.나는이 솔루션 레프의 거리에 Soundex와 파생 알고리즘을 추천 할 것입니다. Levenshtein 거리 맞춤법 검사 솔루션 이럴 더 적합합니다.
나는이 솔루션 레프의 거리에 Soundex와 파생 알고리즘을 추천 할 것입니다. Levenshtein 거리 맞춤법 검사 솔루션 이럴 더 적합합니다.
from https://stackoverflow.com/questions/3091257/how-to-recognize-similar-words-with-difference-in-spelling by cc-by-sa and MIT license
'SQL' 카테고리의 다른 글
[SQL] 왜 wm_concat 여기에 작동하지 않는 이유는 무엇입니까? (0) | 2020.05.29 |
---|---|
[SQL] 부동 소수점으로 값을 캐스팅 할 수 없습니다 (0) | 2020.05.29 |
[SQL] 오라클에서 밀리 초에 타임 스탬프 사이의 차이 (0) | 2020.05.29 |
[SQL] H2 데이터베이스 열 이름 "그룹은"예약 된 단어입니다 (0) | 2020.05.29 |
[SQL] C #하는 SqlCommand - 어떻게 해결에 열 이름에 대한 매개 변수를 사용할 수없는 이유는 무엇입니까? (0) | 2020.05.29 |