복붙노트

[HADOOP] hadoop 스트리밍 : EMR에서 모듈 가져 오기

HADOOP

hadoop 스트리밍 : EMR에서 모듈 가져 오기

이 이전 질문은 hadoop 스트리밍을 위해 nltk와 같은 모듈을 가져 오는 방법을 다루었습니다.

단계는 다음과 같습니다.

zip -r nltkandyaml.zip nltk yaml
mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod

이제 파이썬 스크립트에서 사용하기 위해 nltk 모듈을 가져올 수 있습니다. 수입 우편 수입

importer = zipimport.zipimporter('nltkandyaml.mod')
yaml = importer.load_module('yaml')
nltk = importer.load_module('nltk')

Amazon EMR에서 실행하려는 작업이 있는데 압축 파일을 어디에 둘지 잘 모르겠습니다. boostrapping 옵션에서 부트 스트랩 스크립트를 작성해야합니까 아니면 tar.gz를 S3에 넣은 다음 추가 인수에 넣어야합니까? 나는이 모든 것에 매우 익숙하며 프로세스를 통해 나를 안내 할 수있는 대답을 높이 평가 할 것입니다.

해결법

  1. ==============================

    1.다음과 같은 옵션이 있습니다.

    다음과 같은 옵션이 있습니다.

    http://packages.python.org/mrjob/configs-runners.html

    mrjob도 Python에서 MapReduce 작업을 개발하는 데 많은 도움이되므로 옵션 2를 선호합니다. 특히 디버깅을 단순화하는 EMR뿐만 아니라 로컬 (Hadoop의 유무에 관계없이) 작업을 실행할 수 있습니다.

  2. from https://stackoverflow.com/questions/8129543/hadoop-streaming-importing-modules-on-emr by cc-by-sa and MIT license