맵리 듀스를 사용하여 중복 값을 제거하는 방법

나는 다음과 같이 설정 데이터를 가지고 -

핵심 가치

K1의 A1, B1, C1, D1

K2의 A2, B1, C2, D2

QA 행, B 1, KAA 장소

KH A4, B1, TS4, DC

KKH 형제, B 1, KKH, 펌핑

상기 데이터 세트의 키는 별개이며 값을 콤마 구분 한 값 즉 (B1)는 모든 값 세트에 공통이다. 그 값이 동일 할 경우 다음이 값 중 하나의 값이 출력 기록으로 선택해야처럼 그리고 내 요구 사항입니다. 한마디로 난 키가 서로 다른 경우에 중복 값을 제거 할.

사람이 어떻게 접근하는 방법을 말해 줄래?

나는 구현 아래에 있습니다 -

에이. 감속기 측 같은 난 세트의 값을 추가 한 다음 자동 중복을 제거한다.

하지만 난 중복 값을 식별하고 제거하는 프레임 워크 측을 줄지도에서 어떤 해결책이 있는지 알고 싶습니다.

출력 - 희망

KKH 형제, B 1, KKH, 펌핑

그것은 지난 중복 값이 발생하는 최신 키를해야합니다.

미리 감사드립니다.

해결법

[HADOOP] 하둡 setInputPathFilter 오류 (0)	2019.09.22
[HADOOP] 원격 HDFS 액세스 (0)	2019.09.22
[HADOOP] TwoDArrayWritable를 사용하여 매퍼에서 2D double 배열을 방출하는 방법 (0)	2019.09.22
[HADOOP] 하둡과 함께 제공되는 기본 hashpartioner로 대체 (0)	2019.09.22
[HADOOP] 어떻게 하둡의 각 단계 (지도, 셔플 / 정렬 감소)의 지속 시간을 측정 할 수있다? (0)	2019.09.22