복붙노트

[HADOOP] hadoop 분산 시스템 노드에서 파이썬 패키지 관련 문제

HADOOP

hadoop 분산 시스템 노드에서 파이썬 패키지 관련 문제

나 hadoop 스트리밍 할 파이썬을 사용합니다. 우리는 마스터 노드와 네 개의 슬레이브 노드가있는 AWS hadoop 스트리밍 분산 시스템을 사용합니다. 파이썬에 패키지를 설치해야하는 경우 시스템의 모든 노드에 패키지를 설치해야 제대로 작동합니다. 하지만 제 경우에는 시스템의 모든 노드에 파이썬 패키지를 설치 한 후에도 파이썬의 힙합 스트리밍 작업이 여전히 작동하지 않습니다. 이유가 궁금합니다. 고맙습니다!

자세한 내용은:

필자는 map reduce 작업을하기 위해 비단뱀을 스트리밍 방식으로 사용합니다. 그리고 내가 사용하는 hadoop 시스템은 하나의 마스터 노드와 4 개의 슬레이브 노드가있는 AWS hadoop 분산 시스템입니다. 때로는 파이썬에 패키지를 설치해야한다. 이론적으로는 분산 시스템입니다. 파이썬에 패키지를 설치해야하는 경우 스트리밍 작업을 수행하기 위해 분산 시스템의 모든 노드에 파이썬에 패키지를 설치해야합니다. 하지만 hadoop 분산 시스템의 모든 노드에 필요한 파이썬 패키지를 설치 한 후에도 hadoop 스트리밍 작업은 여전히 ​​실패합니다. 그러나 hadoop 스트리밍 파이썬 스크립트에서 "import some-package"라인을 삭제하고 그에 따라 코드를 변경 한 후, hadoop 스트리밍 파이썬 작업이 작동합니다. 문제는 새로 추가 된 파이썬 패키지에 있습니다. 혼란 스럽 습니다만, 왜 hadoop 분산 시스템의 모든 노드의 파이썬에 파이썬 패키지를 설치하더라도 파이썬 스트리밍 작업을 할 수 없습니다.

해결법

    from https://stackoverflow.com/questions/24371816/issues-on-python-packages-on-hadoop-distributed-system-nodes by cc-by-sa and MIT license