복붙노트

[HADOOP] Hadoop Streaming (lang : Python)에서 여러 MapReduce 작업을 캐스케이드 할 수 있습니까?

HADOOP

Hadoop Streaming (lang : Python)에서 여러 MapReduce 작업을 캐스케이드 할 수 있습니까?

Python을 사용하고 있으며 Hadoop Streaming을 사용하여 다음 시나리오에서 작업해야합니다. a) Map1-> Reduce1-> Map2-> Reduce2 b) 중간 파일을 저장하고 싶지 않습니다. c) Cascading, Yelp, Oozie와 같은 패키지를 설치하고 싶지 않습니다. 나는 그들을 마지막 옵션으로 유지했다.

나는 이미 SO와 다른 곳에서 같은 종류의 토론을했지만 파이썬에서 답을 찾을 수 없었습니다. 제안 해 주시겠습니까?

해결법

  1. ==============================

    1.이유가 무엇입니까? 응답을 바탕으로 더 나은 솔루션을 제공 할 수 있습니다.

    이유가 무엇입니까? 응답을 바탕으로 더 나은 솔루션을 제공 할 수 있습니다.

    이전 Hadoop 작업의 o / p를 다음 작업으로 i / p로 스트리밍 할 수 없으므로 중간 파일을 피할 수 없습니다. 이런 스크립트를 작성

  2. ==============================

    2.Dumbo https://github.com/klbostee/dumbo/wiki/Short-tutorial 또는 MRJob http://packages.python.org/mrjob/와 같은 Python 스트리밍에 MapReduce 프레임 워크를 사용하지 않는 이유

    Dumbo https://github.com/klbostee/dumbo/wiki/Short-tutorial 또는 MRJob http://packages.python.org/mrjob/와 같은 Python 스트리밍에 MapReduce 프레임 워크를 사용하지 않는 이유

    예를 들어, dumbo를 사용하면 파이프는 다음과 같습니다.

    job.add_iter(Mapper1, Reducer1)
    job.add_iter(Mapper2, Reducer2)
    
  3. from https://stackoverflow.com/questions/8860214/can-we-cascade-multiple-mapreduce-jobs-in-hadoop-streaming-lang-python by cc-by-sa and MIT license