두 번 맵리 듀스를 호출

내가 여기에 단어 수 자습서를 다음 해요 : https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v1.0

나는 단어가이 형식으로 표시되는 빈도를 생성 할 수 있습니다 :

word frequency
1    1
2    2
3    3
4    1
5    2
6    1

그러나, 지금은 그룹에 같은 주파수가 필요합니다 :

frequency   count
1           3
2           2
3           1

기본적으로, 각 주파수, 등장 빈도를 찾을 수 있습니다. 어떻게이 문제를 표시하는 코드를 수정 것인가? 나는 IntSumReducer을 수정해야하지만 난 정말 하둡과 함께 일한 적이 것 같은 느낌.

해결법

==============================
1.대신 예에서 SumReducer을 수정, 당신은 단어 수 프로그램의 출력 떨어져 작동 완전히 새로운 작업을 생성해야합니다.

대신 예에서 SumReducer을 수정, 당신은 단어 수 프로그램의 출력 떨어져 작동 완전히 새로운 작업을 생성해야합니다.

귀하의 매퍼 값으로 키와 정수 1로 출력 주파수에 필요합니다. 당신은 당신의 자신의 감속기를 작성하거나 단지 예에서 사용 된 것과 동일한 감속기를 사용할 수 있습니다.

from https://stackoverflow.com/questions/43190518/calling-mapreduce-twice by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] K는 클러스터링 조련사를 의미 (0)	2019.10.22
[HADOOP] 64 비트 VM 윈도우 7 32 비트에 우분투 14.04에 빅 데이터 하둡을 설치하는 방법 (0)	2019.10.22
[HADOOP] 역사 UI가 작동하지 스파크 \| Ambari \| 실 (0)	2019.10.22
[HADOOP] RHADOOP에 문제가 있습니까? (0)	2019.10.22
[HADOOP] / 센트리 보여주기 위해 구성 서로 다른 사용자에 대해 서로 다른 데이터베이스를 숨길 (0)	2019.10.22

복붙노트

[HADOOP] 두 번 맵리 듀스를 호출

두 번 맵리 듀스를 호출

해결법

1.대신 예에서 SumReducer을 수정, 당신은 단어 수 프로그램의 출력 떨어져 작동 완전히 새로운 작업을 생성해야합니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바