[HADOOP] Hadoop을 사용한 유사성 결합
HADOOPHadoop을 사용한 유사성 결합
나는 새삼 스럽다. 나는 당신과 함께 몇 가지 접근법을 실행하고 싶습니다.
문제: 2 개의 데이터 세트 : A와 B 두 데이터 세트는 노래를 대표합니다 : 몇 가지 최상위 속성, 제목 (1 ..), 연예인 (1 ..). 제목과 출연자에 따라 평등 또는 퍼지 알고리즘 (예 : levenshtein, jaccard, jaro-winkler 등)을 사용하여 이러한 데이터 세트를 일치시켜야합니다. 데이터 세트 크기는 A = 20-30M, B = 1-6M입니다.
여기에 제가 생각해 낸 접근법이 있습니다 :
나는 포인터를 찾고 있는데, 어떤 접근법이 최선의 후보가 될지, 아니면 내가 볼 수없는 다른 접근법이 있을지도 모른다.
해결법
-
==============================
1.이 문서와 코드가 유용 할 수 있습니다.
이 문서와 코드가 유용 할 수 있습니다.
MapReduce를 사용하여 효율적인 병렬 집합 유사성 조인
개인적으로 계단식으로 구현하여 좋은 결과를 얻었습니다. 불행하게도이 코드는 출시하기에 너무 도메인 적입니다.
위의 작업의 요점은 유사 할 가능성이 높은 후보 쌍에 대한 조인 수를 줄이는 것이고, 후보 쌍은 관련 알고리즘의 칵테일을 사용하여 직접 (MR 조인에서) 비교할 수 있습니다. 좋은 부작용은 중복 된 비교없이 클러스터 전체에서이 조인을 고르게 수행 할 수 있다는 것입니다.
궁극적으로이 작업은 두 개의 독립적 인 세트 간 또는 같은 세트 내에서 교차 결합을 수행하는 최적화입니다 (두 번째 케이스는 첫 번째 케이스와 약간 다르게 구현됩니다).
공개 : 나는 Cascading의 저자이다.
-
==============================
2.좀 봐.
좀 봐.
-
==============================
3.지미 린 (Jimmy Lin)이이 두 논문을보고 싶을 수도 있습니다.
지미 린 (Jimmy Lin)이이 두 논문을보고 싶을 수도 있습니다.
접근 방식은 사용하는 유사성 메트릭의 종류에 따라 다르지만 여기서는 Lucene 기반 접근 방식이 유용 할 수 있습니다. 또한 필요한 데이터 비교 횟수를 줄이기 위해 데이터를 분할하는 방법을 생각해 볼 수도 있습니다.
from https://stackoverflow.com/questions/4053857/similarity-join-using-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] S3 버킷에서 파일을로드 할 때 Spark에서 만드는 파티션은 몇 개입니까? (0) | 2019.07.21 |
---|---|
[HADOOP] Windows에서 hadoop 2.2를 설치하고 실행하기위한 문서 (0) | 2019.07.21 |
[HADOOP] 헤드리스 환경의 MapReduce 작업이 컨테이너 실행의 AM 컨테이너 예외로 인해 N 번 실패합니다. (0) | 2019.07.21 |
[HADOOP] hadoop-streaming에 파일이 아닌 디렉토리를 전달 하시겠습니까? (0) | 2019.07.21 |
[HADOOP] 비 hdfs 파일 시스템에서의 hadoop / yarn 및 작업 병렬 처리 (0) | 2019.07.21 |