복붙노트

[HADOOP] oozie가 종속성을 처리하는 방법은 무엇입니까?

HADOOP

oozie가 종속성을 처리하는 방법은 무엇입니까?

oozie 2.3 공유 라이브러리에 대해 몇 가지 질문이 있습니다.

현재 나는 coordinator.properties에 공유 라이브러리를 정의했다 :

oozie.use.system.libpath=true 
oozie.libpath=<hdfs_path>

여기에 내 질문이있다 :

해결법

  1. ==============================

    1.oozie.libpath 등록 정보에 항목을 추가하면 효과적으로 OOZIE는 해당 라이브러리가 mapred.cache.files 구성 등록 정보 (이 위치는 DistributedCache 등록 정보)에 워크 플로우의 조치가 실행될 때 구성되도록 구성합니다.

    oozie.libpath 등록 정보에 항목을 추가하면 효과적으로 OOZIE는 해당 라이브러리가 mapred.cache.files 구성 등록 정보 (이 위치는 DistributedCache 등록 정보)에 워크 플로우의 조치가 실행될 때 구성되도록 구성합니다.

    그런 다음 Hadoop은 작업마다 한 번씩 각 클러스터 노드에 해당 jar를 복사하고 클래스 경로 구성 등록 정보 mapred.job.classpath.files에 jar로 구성합니다

    따라서 두 번째 질문에 대한 응답으로 코디네이터 작업 당 한 번이 아니라 워크 플로의 각 작업마다 복사됩니다. 따라서 4 가지 mapreduce 작업이있는 wf 작업이있는 경우 라이브러리는 해당 작업 흐름의 수명 내내 각 작업 추적기 (mapreduce 작업에 참여하는 작업 추적기 만)에 4 번 복사됩니다.

  2. from https://stackoverflow.com/questions/11042495/how-oozie-handle-dependencies by cc-by-sa and MIT license