복붙노트

[HADOOP] 하둡을 사용하여 jar 파일을 실행 - 파이썬

HADOOP

하둡을 사용하여 jar 파일을 실행 - 파이썬

나는 이런 식 작업의 순서를 가지고 기존의 파이썬 프로그램이있다 :

파일)보다 숫자 또는 b) 큰 입력 파일에 작동 할 : 나는이있는 경우 완료하는 데 매우 오래 걸립니다 작동 Y 속도를 높이기 위해 하둡의 사용을 사용하고 싶습니다.

스레드가이 경우에 더 나을 경우가 이러한 성격의 무언가를 할 수있는 첫 번째 장소에서 하둡으로 이동하는 것이 좋습니다이며, 경우에 내가 알고 싶은 것은. X와 Y가 어떤 방식으로 교체하거나 변경할 수없는 것들입니다 명심.

나는이 아이디어를 내놓았다 :

나는 심지어이 시나리오에서 K-V 쌍을 것이다, 이것은 전혀 의미가 특히 매퍼는 (키, 값) 쌍 기대 주어진 있는지 알고 싶습니다?

나는이 프로젝트처럼 소리를 알고 그것을이기 때문이다,하지만 난 코드이도 일하는 것이 있는지 여부에 대해 단지 몇 가지 지침을 찾는 게 아니에요 그것은 한 경우, 경우에이 일에 대해가는 올바른 방법은 무엇입니까 내 제안 된 솔루션은 (충분히) 정확하지 않습니다.

감사합니다!

해결법

  1. ==============================

    1.당신은 절대적으로 작업을 완료하기 위해 하둡 맵리 듀스의 프레임 워크를 사용하지만, 좋은 생각은 "그것은 의존한다"가 될 수 있는지에 대한 답변을 할 수 있습니다. 이 수를 따라와 파일의 크기는 계속하고 싶다.

    당신은 절대적으로 작업을 완료하기 위해 하둡 맵리 듀스의 프레임 워크를 사용하지만, 좋은 생각은 "그것은 의존한다"가 될 수 있는지에 대한 답변을 할 수 있습니다. 이 수를 따라와 파일의 크기는 계속하고 싶다.

    당신이 작은 파일의 좋은 숫자 (예를 들어 1000 만)이있는 경우 작은 파일 처리에 매우 좋지 않다 HDFS 명심하는 것은, 그것은 네임 노드에 대한 재앙이 될 수있다 (크기가 1,000 바이트 미만). 크기가 너무 큰 그러나 약간 파일을 진행하는 데 필요한 경우 작업이이 상황에서 (넓고 균일하게 확산되지 않습니다 때문에 다른 손으로는, 단지 직접 매퍼에서의 2 단계를 마무리하는 멋진 아니다 난 키 - 값 만 수 있습니다 생각 "아니오 파일 -. 파일 내용"또는 "파일 이름 - 파일 내용", 당신은 X가 실제로 어떤 방식으로 변경할 수 없습니다 언급 주어진. "아니오 라인 -. 라인은"더 situable 것 )

    BTW, 하둡 맵리 듀스의 프레임 워크를 활용하는 2 가지 방법이 있습니다, 하나의 방법은 자바 매퍼 / 감속기를 작성하고 항아리를 컴파일 한 후 하둡 항아리 you_job.jar와 맵리 듀스 작업을 실행합니다. 또 다른 방법은 파이썬을 사용하여이 방법으로 당신은 매퍼 / 감속기를 작성할 수, 스트리밍됩니다.

  2. from https://stackoverflow.com/questions/20026170/using-hadoop-to-run-a-jar-file-python by cc-by-sa and MIT license