복붙노트

[HADOOP] MRJob를 사용하여 여러 매퍼와 다중 입력

HADOOP

MRJob를 사용하여 여러 매퍼와 다중 입력

그것은 mrjob를 사용하여 하둡의 각으로 사용할 다른 매퍼 여러 입력의 옵션을 구현할 수 있습니까? 이 경우, 예를 들어 나 문서에 대한 링크는 도움이 될 것입니다.

편집하다: 이 질문에 같은 예를 구현하기 위해 노력하고 있습니다 : 하둡 여러 입력을. 유일한 차이점은 내가 파이썬 작업을 가지고 MRJob 라이브러리를 사용하고 싶지된다.

나는 데이터를 매일오고 있습니다. 나는 형식 일 1 A의 소스에 대한 일 수준에서 일부 요약을 계산합니다 :

출력 B와 같은 선도 :

하루에 2 일, 나는 새로운 날짜 정보에 대한 구매하십시오. 이제 주 1의 B와 유사한 키 / 값의 포맷을 갖는 매퍼의 출력과 상이한 포맷을 처리하기 위해 동일한 작업 두 가지 맵퍼 (매퍼 M1 및 M2는 각각)에 2 일의를 제공하고자합니다. 이 날 함께 하루에 1과 2의 누적 요약 한 것입니다 날 2의 B에게 것이다. 이 양식은 매일 계속됩니다.

나는이 MRJob 또는 하둡에 대한 다른 파이썬 기반 라이브러리를 통해 수행 할 수 있는지 알고 싶습니다.

PS : 난 소스 타입 지시자로 입력 및 출력 모두에서 추가 필드를 이용하여 하나의 사상을 이용하여,이를 따라 각 레코드를 처리 할 수 ​​있다고 생각. 그러나 나는 그 방법을 사용하여 매우 치열하지 않다. 어느 내가 훨씬 청소기 접근 느낌이 옵션을 찾고있는 이유입니다.

해결법

    from https://stackoverflow.com/questions/52674149/multiple-input-with-multiple-mappers-using-mrjob by cc-by-sa and MIT license