복붙노트

[HADOOP] 하둡에 입력이 주요 관련하여 완성 기능을 줄일 수 있습니까?

HADOOP

하둡에 입력이 주요 관련하여 완성 기능을 줄일 수 있습니까?

두 개 이상의 파일에서 키 입력 데이터를 읽어 관련된 문제에 대한 해결책을 찾고 있어요. 하나의지도 단계에서 나는 같은 시간에 같은 장소에서 특정 키에 대한 모든 값이 필요합니다. 나는 화이트의 책에서 "셔플"에 대한 설명을 참조하고 병합 나오고 키에 대한 모든 데이터가있는 경우 감속기에 입력, 키에 의해 정렬 할 때 경우 .... 궁금 유혹하고 당신이 경우 그 셀 수 있습니다.

더 큰 사진 내가 가난한 사람의 트리플 매장 연맹과 내가 메모리 저장소에로드 할 트리플가 모두 같은 파일에서 오지 않는 수행 할 것입니다. 그것은 특정 키의 값이 다른 파일에있는 수직 (?) 파티션입니다. 또 다른 방법은, 완전한 레코드에 대한 열을 각각 다른 파일에서 온 말했다. 하둡 것을 재 조립 하는가? ... 한 번에 하나의 키에 대한 최소한.

해결법

  1. ==============================

    1.한마디로 : 네. 하둡 작업에서, 분할기는 (키, 값) 쌍을 수신하는 감속기 선택한다. 파티션에 야후 가이드 부로부터 견적 "그것을 생성 한 인스턴스 매퍼에 관계없이 임의의 키에 대한 대상 파티션이 동일 할 필요가있다." 일반적으로지도 해결 알고리즘의 유형의 많은 (예 : 당신이 설명하고 무엇을 분산 정렬로) 감소를 위해이 필요하다.

    한마디로 : 네. 하둡 작업에서, 분할기는 (키, 값) 쌍을 수신하는 감속기 선택한다. 파티션에 야후 가이드 부로부터 견적 "그것을 생성 한 인스턴스 매퍼에 관계없이 임의의 키에 대한 대상 파티션이 동일 할 필요가있다." 일반적으로지도 해결 알고리즘의 유형의 많은 (예 : 당신이 설명하고 무엇을 분산 정렬로) 감소를 위해이 필요하다.

  2. from https://stackoverflow.com/questions/8219350/is-the-input-to-a-hadoop-reduce-function-complete-with-regards-to-its-key by cc-by-sa and MIT license