[HADOOP] 하둡 스트리밍과 종속성을 관리?
HADOOP하둡 스트리밍과 종속성을 관리?
나는 빠른 하둡 스트리밍 질문이 있습니다. 파이썬 스트리밍을 사용하고 있는데 내 맵퍼 / 감속기가 필요하지만 기본적으로 설치되지 않습니다 파이썬 패키지가있는 경우 나뿐만 아니라 모든 하둡 시스템에서 사람들을 설치해야하거나로 전송 직렬화의 어떤 종류가 할 원격 시스템?
해결법
-
==============================
1.그들은 당신의 작업 상자에 설치하지 않는 경우, 당신은 - 파일로 보낼 수 있습니다. 패키지 또는 다른 디렉토리 구조가 필요한 경우, 당신은 당신을 위해 압축 해제됩니다 ZipFile를을 보낼 수 있습니다. 여기에 Haddop 0.17 호출입니다 :
그들은 당신의 작업 상자에 설치하지 않는 경우, 당신은 - 파일로 보낼 수 있습니다. 패키지 또는 다른 디렉토리 구조가 필요한 경우, 당신은 당신을 위해 압축 해제됩니다 ZipFile를을 보낼 수 있습니다. 여기에 Haddop 0.17 호출입니다 :
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip
그러나,주의해야 할 점에 대해이 문제를 참조하십시오
https://issues.apache.org/jira/browse/MAPREDUCE-596
-
==============================
2.당신은 덤보를 사용하는 경우는 계란 파일을 배포 -libegg 사용하고 파이썬 런타임을 자동으로 구성 할 수 있습니다 :
당신은 덤보를 사용하는 경우는 계란 파일을 배포 -libegg 사용하고 파이썬 런타임을 자동으로 구성 할 수 있습니다 :
https://github.com/klbostee/dumbo/wiki/Short-tutorial#wiki-eggs_and_jars https://github.com/klbostee/dumbo/wiki/Configuration-files
from https://stackoverflow.com/questions/2862345/managing-dependencies-with-hadoop-streaming by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하둡 매퍼에서 총 입력 경로 개수를 가져옵니다 (0) | 2019.10.10 |
---|---|
[HADOOP] 창에서 MR2와 NullPointerException이 (0) | 2019.10.10 |
[HADOOP] 무슨 일이 바람직 mapr EC2에서 하둡을 시작하는 가장 쉬운 방법입니다 (0) | 2019.10.10 |
[HADOOP] 하둡 단일 노드 설치 2.5.1 후 작업 추적기와 JobTracker를 참조 할 수없는 (0) | 2019.10.10 |
[HADOOP] 수출 오류를 Sqoop을 - 원인 : org.apache.hadoop.mapreduce.lib.input.InvalidInputException : 입력 경로가 존재하지 않습니다 (0) | 2019.10.10 |