복붙노트

[HADOOP] Amazon EMR 클러스터에서 hadoop MR 작업을 원격으로 제출하는 방법

HADOOP

Amazon EMR 클러스터에서 hadoop MR 작업을 원격으로 제출하는 방법

현재 상황 : EMR 클러스터가 있습니다. 마스터 노드에서 - 하위 프로세스 호출을 수행하고 다음 줄이 포함 된 스크립트를 실행하는 python 프로그램이 있습니다. 하위 프로세스는 MR 작업을 트리거하고 나중에 사용할 HDFS에 출력을 씁니다.

/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt

나는 무엇을하고 싶니? 자,이 부분을 분리하려고합니다. 내 랩톱이나 별도의 EC2 인스턴스에서 Python 프로그램을 로컬로 실행하려고하지만 MR 작업을 EMR 클러스터에 제출하고 싶습니다. EMR 마스터 노드에 test.jar가 있다고 가정 해 봅시다.

어떻게 이것을 원격으로 제출합니까? 또한 파이썬을 사용 중이며 JAR이 블랙 박스라고 가정합니다. 작업 제출을 위해 사용할 수있는 패키지가 있습니까? 이것을 실행할 수 있으려면 마스터 노드의 IP처럼 언급해야합니까?

해결법

    from https://stackoverflow.com/questions/53642809/how-to-submit-hadoop-mr-job-remotely-on-amazon-emr-cluster by cc-by-sa and MIT license