복붙노트

[HADOOP] 감속기의 다중 출력

HADOOP

감속기의 다중 출력

나는 단순한지도를 줄이는 프로그램에서 일하고있다. 키의 각기 다른 단어에 대해 감속기 다음에 다른 파일을 만들고 싶습니다. 예를 들어, Mapreduce를 실행 한 후에 나는

우선 순위 1 x 2

우선 순위 1 및 2

우선 순위 1의 2

우선 순위 2 x 2

우선 순위 2와 2

이제 우선 순위에 따라 이러한 모든 값을 갖는 우선 순위 1과 우선 순위 2라고 말하면서 단계적으로 축소 된 후 다른 파일을 원합니다. 나는 자바를 사용하고 있으며 이런 종류의 출력을 가지고 있다면 감속기에 무엇을 써야하는지 알고 싶습니까?

나는 이것이 가능한지 또는 이것이 어떻게 접근하거나 해결할 수 있는지 알고 싶다. Hadoop 0.20.203을 사용하고 있으므로 여러 출력이 작동하지 않습니다.

모든 포인터가 도움이 될 것입니다. 도와 주셔서 감사합니다! 아툴

해결법

  1. ==============================

    1.당신은 당신의 기준에 기초한 파티션 클래스를 먼저 만들어야합니다.

    당신은 당신의 기준에 기초한 파티션 클래스를 먼저 만들어야합니다.

    그런 다음 자신 만의 outputformat 클래스와 recordwriter 클래스를 만들어야합니다.

    레코드 작성자 클래스는 필요에 따라 다른 파일에 작성해야합니다. 또한 값을 정렬해야 할 경우 키 필드에 대한 비교기 클래스를 만듭니다.

  2. ==============================

    2.MultipleOutputs를보십시오.

    MultipleOutputs를보십시오.

  3. from https://stackoverflow.com/questions/9352905/multiple-output-in-reducer by cc-by-sa and MIT license