복붙노트

[HADOOP] 맵리 듀스를 사용하여 중복 값을 제거하는 방법

HADOOP

맵리 듀스를 사용하여 중복 값을 제거하는 방법

나는 다음과 같이 설정 데이터를 가지고 -

핵심 가치

K1의 A1, B1, C1, D1

K2의 A2, B1, C2, D2

QA 행, B 1, KAA 장소

KH A4, B1, TS4, DC

KKH 형제, B 1, KKH, 펌핑

상기 데이터 세트의 키는 별개이며 값을 콤마 구분 한 값 즉 (B1)는 모든 값 세트에 공통이다. 그 값이 동일 할 경우 다음이 값 중 하나의 값이 출력 기록으로 선택해야처럼 그리고 내 요구 사항입니다. 한마디로 난 키가 서로 다른 경우에 중복 값을 제거 할.

사람이 어떻게 접근하는 방법을 말해 줄래?

나는 구현 아래에 있습니다 -

에이. 감속기 측 같은 난 세트의 값을 추가 한 다음 자동 중복을 제거한다.

하지만 난 중복 값을 식별하고 제거하는 프레임 워크 측을 줄지도에서 어떤 해결책이 있는지 알고 싶습니다.

출력 - 희망

KKH 형제, B 1, KKH, 펌핑

그것은 지난 중복 값이 ​​발생하는 최신 키를해야합니다.

미리 감사드립니다.

해결법

    from https://stackoverflow.com/questions/38065737/how-to-remove-duplicate-values-using-mapreduce by cc-by-sa and MIT license