[HADOOP] 스트리밍 하둡 전역 변수
HADOOP스트리밍 하둡 전역 변수
작업 및 구성을 통해 매퍼에게 글로벌 가치를 부여 할 수 있음을 이해합니다.
그러나 Hadoop Streaming (필자의 경우 Python)을 사용하여 어떻게 할 수 있습니까?
올바른 방법은 무엇입니까?
해결법
-
==============================
1.문서를 기반으로 명령 줄 옵션 (-cmdenv name = value)을 지정하여 각 분산 컴퓨터에서 환경 변수를 설정 한 다음 매퍼 / 리듀서에서 사용할 수 있습니다.
문서를 기반으로 명령 줄 옵션 (-cmdenv name = value)을 지정하여 각 분산 컴퓨터에서 환경 변수를 설정 한 다음 매퍼 / 리듀서에서 사용할 수 있습니다.
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input input.txt \ -output output.txt \ -mapper mapper.py \ -reducer reducer.py \ -file mapper.py \ -file reducer.py \ -cmdenv MY_PARAM=thing_I_need
from https://stackoverflow.com/questions/31833045/hadoop-global-variable-with-streaming by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] "bin / mkdistro.sh -DskipTests"를 실행하는 중 Oozie 오류 (0) | 2019.09.09 |
---|---|
[HADOOP] 인덱스 7에서 잘못된 문자에 대한 Hadoop, Java 예외 설치? (0) | 2019.09.09 |
[HADOOP] HDFS를 사용하지 않는 경우 데이터 지역 (0) | 2019.09.09 |
[HADOOP] yarn hadoop 2.4.0 : 정보 메시지 : ipc.Client Retrying connect to server (0) | 2019.09.09 |
[HADOOP] 여러 레코드를 포함하는 삽입 문을 작성하는 Sqoop (0) | 2019.09.08 |