복붙노트

[HADOOP] 두 번 맵리 듀스를 호출

HADOOP

두 번 맵리 듀스를 호출

내가 여기에 단어 수 자습서를 다음 해요 : https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v1.0

나는 단어가이 형식으로 표시되는 빈도를 생성 할 수 있습니다 :

word frequency
1    1
2    2
3    3
4    1
5    2
6    1

그러나, 지금은 그룹에 같은 주파수가 필요합니다 :

frequency   count
1           3
2           2
3           1

기본적으로, 각 주파수, 등장 빈도를 찾을 수 있습니다. 어떻게이 문제를 표시하는 코드를 수정 것인가? 나는 IntSumReducer을 수정해야하지만 난 정말 하둡과 함께 일한 적이 것 같은 느낌.

해결법

  1. ==============================

    1.대신 예에서 SumReducer을 수정, 당신은 단어 수 프로그램의 출력 떨어져 작동 완전히 새로운 작업을 생성해야합니다.

    대신 예에서 SumReducer을 수정, 당신은 단어 수 프로그램의 출력 떨어져 작동 완전히 새로운 작업을 생성해야합니다.

    귀하의 매퍼 값으로 키와 정수 1로 출력 주파수에 필요합니다. 당신은 당신의 자신의 감속기를 작성하거나 단지 예에서 사용 된 것과 동일한 감속기를 사용할 수 있습니다.

  2. from https://stackoverflow.com/questions/43190518/calling-mapreduce-twice by cc-by-sa and MIT license