복붙노트

[SQL] 맞춤법의 차이와 유사한 단어를 인식하는 방법

SQL

맞춤법의 차이와 유사한 단어를 인식하는 방법

나는 데이터베이스에서 중복 된 고객 이름을 필터링 할. 단일 고객은 하나 개 이상의 동일한 이름을 가진 시스템에 입력하지만 맞춤법에 약간의 차이가있을 수 있습니다. 그래서 여기 예입니다 : 브룩라는 고객이 시스템에 세 가지 항목이있을 수 있습니다 이 변화와 :

이제 우리는 하나의 데이터베이스 열에서이 이름을 가하고 있습니다 가정 해 봅시다. 나는 그런 중복은 10 만 개 기록을 말할 형성 식별하기 위해 다른 메커니즘을 알고 싶습니다. 우리는 모든 레코드 또는 다른 패턴 매칭 기법을 반복하는 C #에서 정규 표현식을 사용할 수 있습니다 또는 우리는 이러한 기록을 내보낼 수 있습니다 무엇을 (정규 표현식 기능을 SQL) 이러한 쿼리에 대한 이제까지 가장 적합).

이것은 내가 솔루션으로 무슨 생각입니다

그래서 어떤 아이디어를 전달하시기 바랍니다.

해결법

  1. ==============================

    1.2000 년에 발표 된 더블 메타 폰 알고리즘은, 1918 년에 특허 된 Soundex와 알고리즘의 새롭게 향상된 버전입니다.

    2000 년에 발표 된 더블 메타 폰 알고리즘은, 1918 년에 특허 된 Soundex와 알고리즘의 새롭게 향상된 버전입니다.

    이 기사는 여러 언어를 두 번 메타 폰 구현에 대한 링크가 있습니다.

  2. ==============================

    2.Soundex와에서보세요

    Soundex와에서보세요

    거래-SQL에서 Soundex와 기능 (http://msdn.microsoft.com/en-us/library/ms187384.aspx 참조)가있다 :

    SELECT 
    SOUNDEX('brook berta'),
    SOUNDEX('Bruck Berta'),
    SOUNDEX('Biruk Berta')
    

    예시 값의 각각에 대해 동일한 값을 반환 B620

  3. ==============================

    3.문자열의 유사성을 찾기위한 설립, 분명 (잘 문서화) 알고리즘은 다음과 같습니다 :

    문자열의 유사성을 찾기위한 설립, 분명 (잘 문서화) 알고리즘은 다음과 같습니다 :

  4. ==============================

    4.나는 "유명한"파이썬 맞춤법 검사기와 같은 뭔가를 쓰는 고려할 것입니다.

    나는 "유명한"파이썬 맞춤법 검사기와 같은 뭔가를 쓰는 고려할 것입니다.

    http://norvig.com/spell-correct.html

    이 등, 편지를 교환, 문자를 추가하는 말을 누락 문자를 기반으로 모든 가능한 대안을 찾을 것입니다

  5. ==============================

    5.당신은 음성 유사성 알고리즘 구글 할 수 있습니다 그리고 당신은이에 대한 많은 정보를 찾을 수 있습니다. C #에서 솔루션을 구현하는 방법에 대한 CodeProject의에이 기사를 포함.

    당신은 음성 유사성 알고리즘 구글 할 수 있습니다 그리고 당신은이에 대한 많은 정보를 찾을 수 있습니다. C #에서 솔루션을 구현하는 방법에 대한 CodeProject의에이 기사를 포함.

  6. ==============================

    6.사운 덱스에 봐. 그것은, 즉 당신이 무엇을 필요로하지 알고리즘 음성 유사성을 식별하는 대부분의 언어에서 꽤 표준 라이브러리입니다. http://en.wikipedia.org/wiki/Soundex

    사운 덱스에 봐. 그것은, 즉 당신이 무엇을 필요로하지 알고리즘 음성 유사성을 식별하는 대부분의 언어에서 꽤 표준 라이브러리입니다. http://en.wikipedia.org/wiki/Soundex

  7. ==============================

    7.기록 연동을위한 패키지 (단지 구글에서 "R"로 검색) 아주 좋은 R이있다. 표준 예는 정확하게 문제를 대상 : R RecordLinkage를

    기록 연동을위한 패키지 (단지 구글에서 "R"로 검색) 아주 좋은 R이있다. 표준 예는 정확하게 문제를 대상 : R RecordLinkage를

    Soundex와 등의 C-코드의 PostgreSQL에서 직접 촬영!

  8. ==============================

    8.나는이 솔루션 레프의 거리에 Soundex와 파생 알고리즘을 추천 할 것입니다. Levenshtein 거리 맞춤법 검사 솔루션 이럴 더 적합합니다.

    나는이 솔루션 레프의 거리에 Soundex와 파생 알고리즘을 추천 할 것입니다. Levenshtein 거리 맞춤법 검사 솔루션 이럴 더 적합합니다.

  9. from https://stackoverflow.com/questions/3091257/how-to-recognize-similar-words-with-difference-in-spelling by cc-by-sa and MIT license