복붙노트

[HADOOP] 하둡 스트리밍과 종속성을 관리?

HADOOP

하둡 스트리밍과 종속성을 관리?

나는 빠른 하둡 스트리밍 질문이 있습니다. 파이썬 스트리밍을 사용하고 있는데 내 맵퍼 / 감속기가 필요하지만 기본적으로 설치되지 않습니다 파이썬 패키지가있는 경우 나뿐만 아니라 모든 하둡 시스템에서 사람들을 설치해야하거나로 전송 직렬화의 어떤 종류가 할 원격 시스템?

해결법

  1. ==============================

    1.그들은 당신의 작업 상자에 설치하지 않는 경우, 당신은 - 파일로 보낼 수 있습니다. 패키지 또는 다른 디렉토리 구조가 필요한 경우, 당신은 당신을 위해 압축 해제됩니다 ZipFile를을 보낼 수 있습니다. 여기에 Haddop 0.17 호출입니다 :

    그들은 당신의 작업 상자에 설치하지 않는 경우, 당신은 - 파일로 보낼 수 있습니다. 패키지 또는 다른 디렉토리 구조가 필요한 경우, 당신은 당신을 위해 압축 해제됩니다 ZipFile를을 보낼 수 있습니다. 여기에 Haddop 0.17 호출입니다 :

    $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip
    

    그러나,주의해야 할 점에 대해이 문제를 참조하십시오

    https://issues.apache.org/jira/browse/MAPREDUCE-596

  2. ==============================

    2.당신은 덤보를 사용하는 경우는 계란 파일을 배포 -libegg 사용하고 파이썬 런타임을 자동으로 구성 할 수 있습니다 :

    당신은 덤보를 사용하는 경우는 계란 파일을 배포 -libegg 사용하고 파이썬 런타임을 자동으로 구성 할 수 있습니다 :

    https://github.com/klbostee/dumbo/wiki/Short-tutorial#wiki-eggs_and_jars https://github.com/klbostee/dumbo/wiki/Configuration-files

  3. from https://stackoverflow.com/questions/2862345/managing-dependencies-with-hadoop-streaming by cc-by-sa and MIT license