[HADOOP] 스트리밍 하둡 전역 변수

2019. 9. 9. 01:46

cnpnote

HADOOP

스트리밍 하둡 전역 변수

작업 및 구성을 통해 매퍼에게 글로벌 가치를 부여 할 수 있음을 이해합니다.

그러나 Hadoop Streaming (필자의 경우 Python)을 사용하여 어떻게 할 수 있습니까?

올바른 방법은 무엇입니까?

해결법

==============================
1.문서를 기반으로 명령 줄 옵션 (-cmdenv name = value)을 지정하여 각 분산 컴퓨터에서 환경 변수를 설정 한 다음 매퍼 / 리듀서에서 사용할 수 있습니다.

문서를 기반으로 명령 줄 옵션 (-cmdenv name = value)을 지정하여 각 분산 컴퓨터에서 환경 변수를 설정 한 다음 매퍼 / 리듀서에서 사용할 수 있습니다.
```
$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input input.txt \
    -output output.txt \
    -mapper mapper.py \
    -reducer reducer.py \
    -file mapper.py \
    -file reducer.py \
    -cmdenv MY_PARAM=thing_I_need
```

from https://stackoverflow.com/questions/31833045/hadoop-global-variable-with-streaming by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] "bin / mkdistro.sh -DskipTests"를 실행하는 중 Oozie 오류 (0)	2019.09.09
[HADOOP] 인덱스 7에서 잘못된 문자에 대한 Hadoop, Java 예외 설치? (0)	2019.09.09
[HADOOP] HDFS를 사용하지 않는 경우 데이터 지역 (0)	2019.09.09
[HADOOP] yarn hadoop 2.4.0 : 정보 메시지 : ipc.Client Retrying connect to server (0)	2019.09.09
[HADOOP] 여러 레코드를 포함하는 삽입 문을 작성하는 Sqoop (0)	2019.09.08

,

티스토리툴바