복붙노트

[HADOOP] Hadoop을 사용한 유사성 결합

HADOOP

Hadoop을 사용한 유사성 결합

나는 새삼 스럽다. 나는 당신과 함께 몇 가지 접근법을 실행하고 싶습니다.

문제: 2 개의 데이터 세트 : A와 B 두 데이터 세트는 노래를 대표합니다 : 몇 가지 최상위 속성, 제목 (1 ..), 연예인 (1 ..). 제목과 출연자에 따라 평등 또는 퍼지 알고리즘 (예 : levenshtein, jaccard, jaro-winkler 등)을 사용하여 이러한 데이터 세트를 일치시켜야합니다. 데이터 세트 크기는 A = 20-30M, B = 1-6M입니다.

여기에 제가 생각해 낸 접근법이 있습니다 :

나는 포인터를 찾고 있는데, 어떤 접근법이 최선의 후보가 될지, 아니면 내가 볼 수없는 다른 접근법이 있을지도 모른다.

해결법

  1. ==============================

    1.이 문서와 코드가 유용 할 수 있습니다.

    이 문서와 코드가 유용 할 수 있습니다.

    MapReduce를 사용하여 효율적인 병렬 집합 유사성 조인

    개인적으로 계단식으로 구현하여 좋은 결과를 얻었습니다. 불행하게도이 코드는 출시하기에 너무 도메인 적입니다.

    위의 작업의 요점은 유사 할 가능성이 높은 후보 쌍에 대한 조인 수를 줄이는 것이고, 후보 쌍은 관련 알고리즘의 칵테일을 사용하여 직접 (MR 조인에서) 비교할 수 있습니다. 좋은 부작용은 중복 된 비교없이 클러스터 전체에서이 조인을 고르게 수행 할 수 있다는 것입니다.

    궁극적으로이 작업은 두 개의 독립적 인 세트 간 또는 같은 세트 내에서 교차 결합을 수행하는 최적화입니다 (두 번째 케이스는 첫 번째 케이스와 약간 다르게 구현됩니다).

    공개 : 나는 Cascading의 저자이다.

  2. ==============================

    2.좀 봐.

    좀 봐.

  3. ==============================

    3.지미 린 (Jimmy Lin)이이 두 논문을보고 싶을 수도 있습니다.

    지미 린 (Jimmy Lin)이이 두 논문을보고 싶을 수도 있습니다.

    접근 방식은 사용하는 유사성 메트릭의 종류에 따라 다르지만 여기서는 Lucene 기반 접근 방식이 유용 할 수 있습니다. 또한 필요한 데이터 비교 횟수를 줄이기 위해 데이터를 분할하는 방법을 생각해 볼 수도 있습니다.

  4. from https://stackoverflow.com/questions/4053857/similarity-join-using-hadoop by cc-by-sa and MIT license