맞춤법의 차이와 유사한 단어를 인식하는 방법

나는 데이터베이스에서 중복 된 고객 이름을 필터링 할. 단일 고객은 하나 개 이상의 동일한 이름을 가진 시스템에 입력하지만 맞춤법에 약간의 차이가있을 수 있습니다. 그래서 여기 예입니다 : 브룩라는 고객이 시스템에 세 가지 항목이있을 수 있습니다 이 변화와 :

이제 우리는 하나의 데이터베이스 열에서이 이름을 가하고 있습니다 가정 해 봅시다. 나는 그런 중복은 10 만 개 기록을 말할 형성 식별하기 위해 다른 메커니즘을 알고 싶습니다. 우리는 모든 레코드 또는 다른 패턴 매칭 기법을 반복하는 C #에서 정규 표현식을 사용할 수 있습니다 또는 우리는 이러한 기록을 내보낼 수 있습니다 무엇을 (정규 표현식 기능을 SQL) 이러한 쿼리에 대한 이제까지 가장 적합).

이것은 내가 솔루션으로 무슨 생각입니다

그래서 어떤 아이디어를 전달하시기 바랍니다.

해결법

==============================
1.2000 년에 발표 된 더블 메타 폰 알고리즘은, 1918 년에 특허 된 Soundex와 알고리즘의 새롭게 향상된 버전입니다.

2000 년에 발표 된 더블 메타 폰 알고리즘은, 1918 년에 특허 된 Soundex와 알고리즘의 새롭게 향상된 버전입니다.

이 기사는 여러 언어를 두 번 메타 폰 구현에 대한 링크가 있습니다.
==============================
2.Soundex와에서보세요

Soundex와에서보세요

거래-SQL에서 Soundex와 기능 (http://msdn.microsoft.com/en-us/library/ms187384.aspx 참조)가있다 :
```
SELECT 
SOUNDEX('brook berta'),
SOUNDEX('Bruck Berta'),
SOUNDEX('Biruk Berta')
```
예시 값의 각각에 대해 동일한 값을 반환 B620
==============================
3.문자열의 유사성을 찾기위한 설립, 분명 (잘 문서화) 알고리즘은 다음과 같습니다 :

문자열의 유사성을 찾기위한 설립, 분명 (잘 문서화) 알고리즘은 다음과 같습니다 :
==============================
4.나는 "유명한"파이썬 맞춤법 검사기와 같은 뭔가를 쓰는 고려할 것입니다.

나는 "유명한"파이썬 맞춤법 검사기와 같은 뭔가를 쓰는 고려할 것입니다.

http://norvig.com/spell-correct.html

이 등, 편지를 교환, 문자를 추가하는 말을 누락 문자를 기반으로 모든 가능한 대안을 찾을 것입니다
==============================
5.당신은 음성 유사성 알고리즘 구글 할 수 있습니다 그리고 당신은이에 대한 많은 정보를 찾을 수 있습니다. C #에서 솔루션을 구현하는 방법에 대한 CodeProject의에이 기사를 포함.

당신은 음성 유사성 알고리즘 구글 할 수 있습니다 그리고 당신은이에 대한 많은 정보를 찾을 수 있습니다. C #에서 솔루션을 구현하는 방법에 대한 CodeProject의에이 기사를 포함.
==============================
6.사운 덱스에 봐. 그것은, 즉 당신이 무엇을 필요로하지 알고리즘 음성 유사성을 식별하는 대부분의 언어에서 꽤 표준 라이브러리입니다. http://en.wikipedia.org/wiki/Soundex

사운 덱스에 봐. 그것은, 즉 당신이 무엇을 필요로하지 알고리즘 음성 유사성을 식별하는 대부분의 언어에서 꽤 표준 라이브러리입니다. http://en.wikipedia.org/wiki/Soundex
==============================
7.기록 연동을위한 패키지 (단지 구글에서 "R"로 검색) 아주 좋은 R이있다. 표준 예는 정확하게 문제를 대상 : R RecordLinkage를

기록 연동을위한 패키지 (단지 구글에서 "R"로 검색) 아주 좋은 R이있다. 표준 예는 정확하게 문제를 대상 : R RecordLinkage를

Soundex와 등의 C-코드의 PostgreSQL에서 직접 촬영!
==============================
8.나는이 솔루션 레프의 거리에 Soundex와 파생 알고리즘을 추천 할 것입니다. Levenshtein 거리 맞춤법 검사 솔루션 이럴 더 적합합니다.

나는이 솔루션 레프의 거리에 Soundex와 파생 알고리즘을 추천 할 것입니다. Levenshtein 거리 맞춤법 검사 솔루션 이럴 더 적합합니다.

from https://stackoverflow.com/questions/3091257/how-to-recognize-similar-words-with-difference-in-spelling by cc-by-sa and MIT license

'SQL' 카테고리의 다른 글

[SQL] 왜 wm_concat 여기에 작동하지 않는 이유는 무엇입니까? (0)	2020.05.29
[SQL] 부동 소수점으로 값을 캐스팅 할 수 없습니다 (0)	2020.05.29
[SQL] 오라클에서 밀리 초에 타임 스탬프 사이의 차이 (0)	2020.05.29
[SQL] H2 데이터베이스 열 이름 "그룹은"예약 된 단어입니다 (0)	2020.05.29
[SQL] C #하는 SqlCommand - 어떻게 해결에 열 이름에 대한 매개 변수를 사용할 수없는 이유는 무엇입니까? (0)	2020.05.29

복붙노트

[SQL] 맞춤법의 차이와 유사한 단어를 인식하는 방법

맞춤법의 차이와 유사한 단어를 인식하는 방법

해결법

1.2000 년에 발표 된 더블 메타 폰 알고리즘은, 1918 년에 특허 된 Soundex와 알고리즘의 새롭게 향상된 버전입니다.

2.Soundex와에서보세요

3.문자열의 유사성을 찾기위한 설립, 분명 (잘 문서화) 알고리즘은 다음과 같습니다 :

4.나는 "유명한"파이썬 맞춤법 검사기와 같은 뭔가를 쓰는 고려할 것입니다.

5.당신은 음성 유사성 알고리즘 구글 할 수 있습니다 그리고 당신은이에 대한 많은 정보를 찾을 수 있습니다. C #에서 솔루션을 구현하는 방법에 대한 CodeProject의에이 기사를 포함.

6.사운 덱스에 봐. 그것은, 즉 당신이 무엇을 필요로하지 알고리즘 음성 유사성을 식별하는 대부분의 언어에서 꽤 표준 라이브러리입니다. http://en.wikipedia.org/wiki/Soundex

7.기록 연동을위한 패키지 (단지 구글에서 "R"로 검색) 아주 좋은 R이있다. 표준 예는 정확하게 문제를 대상 : R RecordLinkage를

8.나는이 솔루션 레프의 거리에 Soundex와 파생 알고리즘을 추천 할 것입니다. Levenshtein 거리 맞춤법 검사 솔루션 이럴 더 적합합니다.

'SQL' 카테고리의 다른 글

티스토리툴바