[HADOOP] 맵리 듀스를 사용하여 중복 값을 제거하는 방법
HADOOP맵리 듀스를 사용하여 중복 값을 제거하는 방법
나는 다음과 같이 설정 데이터를 가지고 -
핵심 가치
K1의 A1, B1, C1, D1
K2의 A2, B1, C2, D2
QA 행, B 1, KAA 장소
KH A4, B1, TS4, DC
KKH 형제, B 1, KKH, 펌핑
상기 데이터 세트의 키는 별개이며 값을 콤마 구분 한 값 즉 (B1)는 모든 값 세트에 공통이다. 그 값이 동일 할 경우 다음이 값 중 하나의 값이 출력 기록으로 선택해야처럼 그리고 내 요구 사항입니다. 한마디로 난 키가 서로 다른 경우에 중복 값을 제거 할.
사람이 어떻게 접근하는 방법을 말해 줄래?
나는 구현 아래에 있습니다 -
에이. 감속기 측 같은 난 세트의 값을 추가 한 다음 자동 중복을 제거한다.
하지만 난 중복 값을 식별하고 제거하는 프레임 워크 측을 줄지도에서 어떤 해결책이 있는지 알고 싶습니다.
출력 - 희망
KKH 형제, B 1, KKH, 펌핑
그것은 지난 중복 값이 발생하는 최신 키를해야합니다.
미리 감사드립니다.
해결법
from https://stackoverflow.com/questions/38065737/how-to-remove-duplicate-values-using-mapreduce by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하둡 setInputPathFilter 오류 (0) | 2019.09.22 |
---|---|
[HADOOP] 원격 HDFS 액세스 (0) | 2019.09.22 |
[HADOOP] TwoDArrayWritable를 사용하여 매퍼에서 2D double 배열을 방출하는 방법 (0) | 2019.09.22 |
[HADOOP] 하둡과 함께 제공되는 기본 hashpartioner로 대체 (0) | 2019.09.22 |
[HADOOP] 어떻게 하둡의 각 단계 (지도, 셔플 / 정렬 감소)의 지속 시간을 측정 할 수있다? (0) | 2019.09.22 |