복붙노트

[HADOOP] 여러 매퍼가있는 다중 입력 경로에 대해 oozie 워크 플로를 구성하는 방법

HADOOP

여러 매퍼가있는 다중 입력 경로에 대해 oozie 워크 플로를 구성하는 방법

map-Reduce 액션으로 작업 흐름을 구성하는 데 도움이 될 수 있습니다. MultipleInputs.addInputPath api가 입력 경로와 매퍼를 취하는 것과 같이 각 입력 경로가 하나의 Mapper에 연결됩니다. 이 매퍼의 출력은 감속기에 제공됩니다.

자바 작업을 시도했지만 맵 작업을 하나만 실행합니다. 하지만 여기서 입력 경로에는 거대한 데이터가 포함되어 있으므로이 경우 자바 액션이 필요하지 않습니다.

이 사건을 처리 할 방법이 있습니까?

안부, Krish

해결법

  1. ==============================

    1.워크 플로에서 mapred.input.dir에 쉼표로 구분 된 입력 디렉토리 목록을 제공 할 수 있습니다. 이렇게하면 해당 디렉토리의 파일이 다른 매퍼에서 실행됩니다.

    워크 플로에서 mapred.input.dir에 쉼표로 구분 된 입력 디렉토리 목록을 제공 할 수 있습니다. 이렇게하면 해당 디렉토리의 파일이 다른 매퍼에서 실행됩니다.

  2. from https://stackoverflow.com/questions/18270454/how-to-configure-oozie-workflow-for-multi-input-path-with-multiple-mappers by cc-by-sa and MIT license