복붙노트

[HADOOP] 하둡은 파이썬 스트리밍 : 행 번호를 추적 유지

HADOOP

하둡은 파이썬 스트리밍 : 행 번호를 추적 유지

나는 간단한 작업을해야 일을하려고 : 나는 파이썬 하둡 스트리밍을 사용하여 대문자로 텍스트 파일을 변환해야합니다.

나는 매퍼에 파일 위치 키와 텍스트 값을 전달 TextInputFormat를 사용하여 작업을 수행하고자합니다. 문제는 하둡 스트리밍이 자동으로 문서의 순서를 보존하는 데 필요한 파일 위치 키를 삭제한다는 것입니다.

어떻게 맵퍼에 대한 입력의 파일 위치 정보를 보유 할 수 있습니까? 또는 하둡 스트리밍을 사용하여 대문자로 문서를 변환하는 더 나은 방법은 무엇입니까?

감사합니다.

해결법

  1. ==============================

    1.당신의 직업은 단지 대문자 하나의 파일에 있다면, 하둡 정말 당신에게 하나의 컴퓨터로 파일을 스트리밍 대문자을 수행하고 다시 HDFS까지 내용을 서면으로 아무것도주지 않을 것입니다. 심지어 거대한 파일, 당신은 여전히이 HDFS에 다시 기록 할 때 그것은 하나의 연속 된 파일에 저장되어 있도록 하나의 감속기에 모든 것을 얻을 필요가가는 (1TB 말).

    당신의 직업은 단지 대문자 하나의 파일에 있다면, 하둡 정말 당신에게 하나의 컴퓨터로 파일을 스트리밍 대문자을 수행하고 다시 HDFS까지 내용을 서면으로 아무것도주지 않을 것입니다. 심지어 거대한 파일, 당신은 여전히이 HDFS에 다시 기록 할 때 그것은 하나의 연속 된 파일에 저장되어 있도록 하나의 감속기에 모든 것을 얻을 필요가가는 (1TB 말).

    이 경우 내가 파일 당 하나의 매퍼가 (파일 자체보다 더 큰 무언가에 분할 최소 및 최대 크기를 설정) 및지도를에만 작업을 실행 스트리밍 작업을 구성합니다.

  2. from https://stackoverflow.com/questions/20303448/hadoop-streaming-with-python-keeping-track-of-line-numbers by cc-by-sa and MIT license