[HADOOP] Hadoop Streaming (lang : Python)에서 여러 MapReduce 작업을 캐스케이드 할 수 있습니까?
HADOOPHadoop Streaming (lang : Python)에서 여러 MapReduce 작업을 캐스케이드 할 수 있습니까?
Python을 사용하고 있으며 Hadoop Streaming을 사용하여 다음 시나리오에서 작업해야합니다. a) Map1-> Reduce1-> Map2-> Reduce2 b) 중간 파일을 저장하고 싶지 않습니다. c) Cascading, Yelp, Oozie와 같은 패키지를 설치하고 싶지 않습니다. 나는 그들을 마지막 옵션으로 유지했다.
나는 이미 SO와 다른 곳에서 같은 종류의 토론을했지만 파이썬에서 답을 찾을 수 없었습니다. 제안 해 주시겠습니까?
해결법
-
==============================
1.이유가 무엇입니까? 응답을 바탕으로 더 나은 솔루션을 제공 할 수 있습니다.
이유가 무엇입니까? 응답을 바탕으로 더 나은 솔루션을 제공 할 수 있습니다.
이전 Hadoop 작업의 o / p를 다음 작업으로 i / p로 스트리밍 할 수 없으므로 중간 파일을 피할 수 없습니다. 이런 스크립트를 작성
-
==============================
2.Dumbo https://github.com/klbostee/dumbo/wiki/Short-tutorial 또는 MRJob http://packages.python.org/mrjob/와 같은 Python 스트리밍에 MapReduce 프레임 워크를 사용하지 않는 이유
Dumbo https://github.com/klbostee/dumbo/wiki/Short-tutorial 또는 MRJob http://packages.python.org/mrjob/와 같은 Python 스트리밍에 MapReduce 프레임 워크를 사용하지 않는 이유
예를 들어, dumbo를 사용하면 파이프는 다음과 같습니다.
job.add_iter(Mapper1, Reducer1) job.add_iter(Mapper2, Reducer2)
from https://stackoverflow.com/questions/8860214/can-we-cascade-multiple-mapreduce-jobs-in-hadoop-streaming-lang-python by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Hbase를 사용하여 Hive 구성 (0) | 2019.09.07 |
---|---|
[HADOOP] 텍스트 파일의 하둡 사용자 정의 분할 (0) | 2019.09.07 |
[HADOOP] HDFS에서 로컬 파일 시스템으로 Parquet 데이터 수집 (0) | 2019.09.07 |
[HADOOP] Spark 및 Python은 사용자 정의 파일 형식 / 생성기를 RDD의 입력으로 사용합니다. (0) | 2019.09.07 |
[HADOOP] Pig 출력에서 괄호와 쉼표를 제거하십시오 (0) | 2019.09.07 |