[HADOOP] hadoop 스트리밍 : EMR에서 모듈 가져 오기
HADOOPhadoop 스트리밍 : EMR에서 모듈 가져 오기
이 이전 질문은 hadoop 스트리밍을 위해 nltk와 같은 모듈을 가져 오는 방법을 다루었습니다.
단계는 다음과 같습니다.
zip -r nltkandyaml.zip nltk yaml
mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod
이제 파이썬 스크립트에서 사용하기 위해 nltk 모듈을 가져올 수 있습니다. 수입 우편 수입
importer = zipimport.zipimporter('nltkandyaml.mod')
yaml = importer.load_module('yaml')
nltk = importer.load_module('nltk')
Amazon EMR에서 실행하려는 작업이 있는데 압축 파일을 어디에 둘지 잘 모르겠습니다. boostrapping 옵션에서 부트 스트랩 스크립트를 작성해야합니까 아니면 tar.gz를 S3에 넣은 다음 추가 인수에 넣어야합니까? 나는이 모든 것에 매우 익숙하며 프로세스를 통해 나를 안내 할 수있는 대답을 높이 평가 할 것입니다.
해결법
-
==============================
1.다음과 같은 옵션이 있습니다.
다음과 같은 옵션이 있습니다.
http://packages.python.org/mrjob/configs-runners.html
mrjob도 Python에서 MapReduce 작업을 개발하는 데 많은 도움이되므로 옵션 2를 선호합니다. 특히 디버깅을 단순화하는 EMR뿐만 아니라 로컬 (Hadoop의 유무에 관계없이) 작업을 실행할 수 있습니다.
from https://stackoverflow.com/questions/8129543/hadoop-streaming-importing-modules-on-emr by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하이브 테이블 생성 쿼리의 MismatchedTokenException (0) | 2019.08.07 |
---|---|
[HADOOP] HBase 맵 전용 행 삭제 (0) | 2019.08.07 |
[HADOOP] 마스터 노드의“start-all.sh”및“start-dfs.sh”가 슬레이브 노드 서비스를 시작하지 않습니까? (0) | 2019.08.07 |
[HADOOP] 원사 클러스터에서 Spark 작업 제출 (0) | 2019.08.07 |
[HADOOP] 왜 hadoop을 실행할 때 데이터 노드가 종료됩니까? (0) | 2019.08.07 |