Hadoop을 사용한 유사성 결합

나는 새삼 스럽다. 나는 당신과 함께 몇 가지 접근법을 실행하고 싶습니다.

문제: 2 개의 데이터 세트 : A와 B 두 데이터 세트는 노래를 대표합니다 : 몇 가지 최상위 속성, 제목 (1 ..), 연예인 (1 ..). 제목과 출연자에 따라 평등 또는 퍼지 알고리즘 (예 : levenshtein, jaccard, jaro-winkler 등)을 사용하여 이러한 데이터 세트를 일치시켜야합니다. 데이터 세트 크기는 A = 20-30M, B = 1-6M입니다.

여기에 제가 생각해 낸 접근법이 있습니다 :

나는 포인터를 찾고 있는데, 어떤 접근법이 최선의 후보가 될지, 아니면 내가 볼 수없는 다른 접근법이 있을지도 모른다.

해결법

==============================
1.이 문서와 코드가 유용 할 수 있습니다.

이 문서와 코드가 유용 할 수 있습니다.

MapReduce를 사용하여 효율적인 병렬 집합 유사성 조인

개인적으로 계단식으로 구현하여 좋은 결과를 얻었습니다. 불행하게도이 코드는 출시하기에 너무 도메인 적입니다.

위의 작업의 요점은 유사 할 가능성이 높은 후보 쌍에 대한 조인 수를 줄이는 것이고, 후보 쌍은 관련 알고리즘의 칵테일을 사용하여 직접 (MR 조인에서) 비교할 수 있습니다. 좋은 부작용은 중복 된 비교없이 클러스터 전체에서이 조인을 고르게 수행 할 수 있다는 것입니다.

궁극적으로이 작업은 두 개의 독립적 인 세트 간 또는 같은 세트 내에서 교차 결합을 수행하는 최적화입니다 (두 번째 케이스는 첫 번째 케이스와 약간 다르게 구현됩니다).

공개 : 나는 Cascading의 저자이다.
==============================
2.좀 봐.

좀 봐.
==============================
3.지미 린 (Jimmy Lin)이이 두 논문을보고 싶을 수도 있습니다.

지미 린 (Jimmy Lin)이이 두 논문을보고 싶을 수도 있습니다.

접근 방식은 사용하는 유사성 메트릭의 종류에 따라 다르지만 여기서는 Lucene 기반 접근 방식이 유용 할 수 있습니다. 또한 필요한 데이터 비교 횟수를 줄이기 위해 데이터를 분할하는 방법을 생각해 볼 수도 있습니다.

from https://stackoverflow.com/questions/4053857/similarity-join-using-hadoop by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] S3 버킷에서 파일을로드 할 때 Spark에서 만드는 파티션은 몇 개입니까? (0)	2019.07.21
[HADOOP] Windows에서 hadoop 2.2를 설치하고 실행하기위한 문서 (0)	2019.07.21
[HADOOP] 헤드리스 환경의 MapReduce 작업이 컨테이너 실행의 AM 컨테이너 예외로 인해 N 번 실패합니다. (0)	2019.07.21
[HADOOP] hadoop-streaming에 파일이 아닌 디렉토리를 전달 하시겠습니까? (0)	2019.07.21
[HADOOP] 비 hdfs 파일 시스템에서의 hadoop / yarn 및 작업 병렬 처리 (0)	2019.07.21

복붙노트

[HADOOP] Hadoop을 사용한 유사성 결합

Hadoop을 사용한 유사성 결합

해결법

1.이 문서와 코드가 유용 할 수 있습니다.

2.좀 봐.

3.지미 린 (Jimmy Lin)이이 두 논문을보고 싶을 수도 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바