복붙노트

[SQL] 스택 오버플로 관련 질문 알고리즘

SQL

스택 오버플로 관련 질문 알고리즘

질문을 볼 때 오른쪽 줄에있는 관련 제목을 입력 한 후 나타나는 질문에, 그 아주 적절한 질문을 제안 할 것으로 보인다.

스택 오버플로가 단지 그것을 위해 SQL 검색을 수행하고 특별한 알고리즘을 사용하지 Spolsky는 이야기했다.

어떤 알고리즘은 이러한 경우에 좋은 답변을 제공하기 위해 존재한다. 어떻게 U는 이러한 경우에 데이터베이스 검색합니까? 제목 검색을 확인하고 키워드 검색 또는 태그와 상단에 많은 표를 가진 그 질문을 검색 하시나요?

해결법

  1. ==============================

    1.각 질문에 대한 태그에 구축 될 것이다 사이드 바 관련 질문 (태그 중첩에 따라 그 순위에 의해 아마 공통점 때문에 5 개 태그> 일반 등 4 개 태그).

    각 질문에 대한 태그에 구축 될 것이다 사이드 바 관련 질문 (태그 중첩에 따라 그 순위에 의해 아마 공통점 때문에 5 개 태그> 일반 등 4 개 태그).

    나머지는 추론과 자연 언어 처리에 적합한 알고리즘을 구축 할 것입니다. 다음은 일반적으로 범용 언어로 아주 좋은 것은 아니지만 어휘가 같은 프로그램 같은 단일 기술 영역으로 아래로 감소되면 그들 대부분은 아주 좋다.

  2. ==============================

    2.당신은 스택 오버플로를들을 경우 제프 앳 우드 그가 그것을 어떻게하는지에 대해 조금 말을들을 수 있습니다 (불행하게도 성적이 훨씬에 없음) (32) 팟 캐스트.

    당신은 스택 오버플로를들을 경우 제프 앳 우드 그가 그것을 어떻게하는지에 대해 조금 말을들을 수 있습니다 (불행하게도 성적이 훨씬에 없음) (32) 팟 캐스트.

    그것은 알고리즘 것 같아 같은 것입니다 :

    전체 텍스트 검색에 대한 자세한 정보는 여기에서 찾을 수 있습니다 : http://msdn.microsoft.com/en-us/library/ms142571.aspx

    그들이 루씬과 같은 검색 더 나은 / 빠른 전체 텍스트 이동에 대해 얘기했다, 나는 막연 제프는이 작업이 완료되었다는 팟 캐스트에서 말을 기억 - 이것은 지금 날짜가있을 수 있습니다.

  3. ==============================

    3.당신이 "관련"알고리즘에 들어갈 찾고있는 경우 형태소 분석 알고리즘에 따른 포터에서보세요.

    당신이 "관련"알고리즘에 들어갈 찾고있는 경우 형태소 분석 알고리즘에 따른 포터에서보세요.

    문서를 처리하고 완료되면 거기에 따른, 당신은 인덱스 개수로 단어를 막아야하고 다른 문서에 비교할 수 있습니다. 이이 문제를 태클에 가장 기본적인 방법입니다.

    또한 등 "의", "를", "에"와 같은 정지 단어를 무시하는데주의를 기울여야

  4. ==============================

    4.당신을 도울 것입니다이 포스팅은이 개 문구의 의미 론적 유사성을 알려주는 알고리즘이 있나요

    당신을 도울 것입니다이 포스팅은이 개 문구의 의미 론적 유사성을 알려주는 알고리즘이 있나요

  5. ==============================

    5.내 직감은 그들이 대략적인 문자열 일치의 변형을 사용하는 것이 얼마나 SO가 구현을, 그러나 모른다.

    내 직감은 그들이 대략적인 문자열 일치의 변형을 사용하는 것이 얼마나 SO가 구현을, 그러나 모른다.

  6. ==============================

    6.SQL 서버의 전체 텍스트 검색 기능을 사용합니다.

    SQL 서버의 전체 텍스트 검색 기능을 사용합니다.

  7. ==============================

    7.이러한 문제는 형태소 단어의 "단어의 가방"을함으로써 해결된다. 즉 기본적으로 단어 수 벡터이다. 그 단어는 전처리 (형태소) 및 문장 ( "는"가 "가능성"보다 높은 확률을 갖고 따라서 덜 가중되어야한다)에서 발생하는 그들의 확률 가중된다. 그런 다음 중 하나 유클리드 공간에서 벡터로 또는 확률 밀도의 샘플로 단어의이 가방을 인식 할 수 있습니다.

    이러한 문제는 형태소 단어의 "단어의 가방"을함으로써 해결된다. 즉 기본적으로 단어 수 벡터이다. 그 단어는 전처리 (형태소) 및 문장 ( "는"가 "가능성"보다 높은 확률을 갖고 따라서 덜 가중되어야한다)에서 발생하는 그들의 확률 가중된다. 그런 다음 중 하나 유클리드 공간에서 벡터로 또는 확률 밀도의 샘플로 단어의이 가방을 인식 할 수 있습니다.

    당신은 이웃 검색이나 의미 해싱 가까운으로 알고리즘을 적용 할 수 있습니다. 후자는 SOTA (http://www.cs.toronto.edu/~rsalakhu/papers/semantic_final.pdf 참조)가 될 것으로 보인다.

  8. from https://stackoverflow.com/questions/891772/stack-overflow-related-questions-algorithm by cc-by-sa and MIT license