복붙노트

[HADOOP] 어떤는 맵리 듀스 작업에 먼저 결합기 또는 파티션 설정을 실행

HADOOP

어떤는 맵리 듀스 작업에 먼저 결합기 또는 파티션 설정을 실행

나는 그것을 위해 두 개의 답을 발견했기 때문에 나는 혼란 스러워요.

1) 하둡 완벽 가이드 당으로 - 제 3 판, 제 6 장 - 맵 사이드는 말한다. "이 디스크에 기록하기 전에 스레드가 먼저 각 파티션 내에서 그들이 궁극적으로 전송 될 감속기에 해당하는 파티션으로 데이터를 분할, 백 그라운드 스레드가 키에 의해 메모리 정렬을 수행하고, 결합기 함수가있는 경우,이 종류의 출력을 실행한다.

2) 야후 개발자 튜토리얼 (야후 튜토리얼) 컴은 파티션 프로그램 이전에 실행했다.

사람이 먼저 실행되는 명확히하십시오 수 있습니다.

해결법

  1. ==============================

    1.지도는 하나 이러한 단계를 모두 포함 할 수 있습니다 작업 감소

    지도는 하나 이러한 단계를 모두 포함 할 수 있습니다 작업 감소

    분할기는 두 번째와 세 번째 단계의 사이에 맞는

    좀 더 자세한 내용은이 링크를 방문 할 수 있습니다.

    관련 SE 질문 & 기사를 통과 한 후,

    무엇을 먼저 실행 : 파티션 프로그램 또는 결합기를?

    누가 먼저 결합기 또는 파티션 설정을 실행할 수있는 기회를 얻을 것이다?

    https://sreejithrpillai.wordpress.com/2014/11/24/implementing-partitioners-and-combiners-for-mapreduce/

    우리는 의견이 나누어 볼 수 있습니다.

    그러나 논리적으로 나는 느낌

    그것은 파티션 설정이 먼저 실행해야하고 결합기는 각 파티션에와 출력 데이터에 실행하는 것을 의미한다.

  2. from https://stackoverflow.com/questions/35195101/which-runs-first-combiner-or-partitioner-in-a-mapreduce-job by cc-by-sa and MIT license