[HADOOP] Amazon EMR 클러스터에서 hadoop MR 작업을 원격으로 제출하는 방법
HADOOPAmazon EMR 클러스터에서 hadoop MR 작업을 원격으로 제출하는 방법
현재 상황 : EMR 클러스터가 있습니다. 마스터 노드에서 - 하위 프로세스 호출을 수행하고 다음 줄이 포함 된 스크립트를 실행하는 python 프로그램이 있습니다. 하위 프로세스는 MR 작업을 트리거하고 나중에 사용할 HDFS에 출력을 씁니다.
/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt
나는 무엇을하고 싶니? 자,이 부분을 분리하려고합니다. 내 랩톱이나 별도의 EC2 인스턴스에서 Python 프로그램을 로컬로 실행하려고하지만 MR 작업을 EMR 클러스터에 제출하고 싶습니다. EMR 마스터 노드에 test.jar가 있다고 가정 해 봅시다.
어떻게 이것을 원격으로 제출합니까? 또한 파이썬을 사용 중이며 JAR이 블랙 박스라고 가정합니다. 작업 제출을 위해 사용할 수있는 패키지가 있습니까? 이것을 실행할 수 있으려면 마스터 노드의 IP처럼 언급해야합니까?
해결법
from https://stackoverflow.com/questions/53642809/how-to-submit-hadoop-mr-job-remotely-on-amazon-emr-cluster by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Opencl 애플리케이션에 대해 hadoop MapReuce 프레임 워크를 사용하는 방법? (0) | 2019.07.03 |
---|---|
[HADOOP] Uber Jar를 Google Dataproc에 제출하는 동안 Guava 종속성 문제를 해결하는 방법 (0) | 2019.07.03 |
[HADOOP] Spark : 스레드 "main"의 예외 java.lang.ClassNotFoundException : com.mysql.jdbc.Driver (0) | 2019.07.03 |
[HADOOP] hbase mapreduce에 Delete 또는 Put 오류 전달 (0) | 2019.07.03 |
[HADOOP] HADOOP 맵에서 Generics를 사용하면 문제를 줄일 수 있습니다. (0) | 2019.07.03 |