복붙노트

[HADOOP] 지도 축소 : ChainMapper 및 ChainReducer

HADOOP

지도 축소 : ChainMapper 및 ChainReducer

필자는 Map Reduce jar 파일을 두 작업에서 분리하여 두 개의 다른 출력 파일을 얻으려고합니다. 하나는 두 작업의 각 감속기에서 하나씩입니다.

첫 번째 작업은 체인의 두 번째 작업에 대한 입력이 될 출력 파일을 생성해야한다는 의미입니다.

hadoop 버전 0.20에서 ChainMapper 및 ChainReducer에 대한 내용을 읽었습니다. (현재 0.18을 사용하고 있습니다.) 내 요구에 잘 맞을 수 있습니까?

아무도 그 방법을 사용하기 위해 몇 가지 예제를 찾을 수있는 링크를 제안 할 수 있습니까? 아니면 내 문제를 해결할 다른 방법이 있을까요?

고맙습니다,

루카

해결법

  1. ==============================

    1.당신이 그것을 할 수있는 많은 방법이 있습니다.

    당신이 그것을 할 수있는 많은 방법이 있습니다.

  2. ==============================

    2.위의 솔루션은 디스크 I / O 작업과 관련이 있으므로 대용량 데이터 세트의 속도가 느려질 것이라고 생각합니다. 대체적으로 Oozie 또는 Cascading을 사용하는 것입니다.

    위의 솔루션은 디스크 I / O 작업과 관련이 있으므로 대용량 데이터 세트의 속도가 느려질 것이라고 생각합니다. 대체적으로 Oozie 또는 Cascading을 사용하는 것입니다.

  3. from https://stackoverflow.com/questions/3059736/map-reduce-chainmapper-and-chainreducer by cc-by-sa and MIT license