복붙노트

[HADOOP] 스트리밍 하둡 전역 변수

HADOOP

스트리밍 하둡 전역 변수

작업 및 구성을 통해 매퍼에게 글로벌 가치를 부여 할 수 있음을 이해합니다.

그러나 Hadoop Streaming (필자의 경우 Python)을 사용하여 어떻게 할 수 있습니까?

올바른 방법은 무엇입니까?

해결법

  1. ==============================

    1.문서를 기반으로 명령 줄 옵션 (-cmdenv name = value)을 지정하여 각 분산 컴퓨터에서 환경 변수를 설정 한 다음 매퍼 / 리듀서에서 사용할 수 있습니다.

    문서를 기반으로 명령 줄 옵션 (-cmdenv name = value)을 지정하여 각 분산 컴퓨터에서 환경 변수를 설정 한 다음 매퍼 / 리듀서에서 사용할 수 있습니다.

    $HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
        -input input.txt \
        -output output.txt \
        -mapper mapper.py \
        -reducer reducer.py \
        -file mapper.py \
        -file reducer.py \
        -cmdenv MY_PARAM=thing_I_need
    
  2. from https://stackoverflow.com/questions/31833045/hadoop-global-variable-with-streaming by cc-by-sa and MIT license