파이썬에서 캐럿 A를 구분

37101000ssd48800^A1420asd938987^A2011-09-10^A18:47:50.000^A99.00^A1^A0^A
37101000sd48801^A44557asd03082^A2011-09-06^A13:24:58.000^A42.01^A1^A0^A

그래서 처음에 나는 문자 그대로 그것을 시도했다.

line = line.split("^A")

그리고 또한

line = line.split("\\u001")

이 작업을 수행하면 첫 번째 방법이 로컬 컴퓨터에서 작동합니다.

cat input.txt | python mapper.py

로컬로 잘 실행되지만 (input.txt는 위의 데이터 임), hadoop 스트리밍 클러스터에서는 실패합니다.

누군가는 "\\ u001"을 구분 기호로 사용해야한다고 말했지만 내 로컬 시스템이나 클러스터에서 작동하지 않습니다.

내가 로컬에서 디버깅하는 경우 :

cat input.txt | python mapper.py | sort | python reducer.py

로컬에서 구분 기호로 "^ A"를 사용하지만 클러스터에서 실행할 때 오류가 발생하며 오류 코드가 너무 도움이되지 않습니다.

이 디버깅을 어떻게 할 수 있습니까? 감사

해결법

[HADOOP] 하이브의 외부 테이블과의 혼동 (0)	2019.06.30
[HADOOP] 코끼리 - 새를 하이브와 함께 사용하여 프로토프 데이터 읽기 (0)	2019.06.30
[HADOOP] Spark Shell with Yarn - 오류 : 원사 응용 프로그램이 이미 종료되었습니다! 응용 프로그램 마스터를 종료 할 수 없거나 실행하지 못했을 수 있습니다. (0)	2019.06.30
[HADOOP] hbase를 사용하여 이미지, 비디오 및 오디오 유형 처리 (0)	2019.06.30
[HADOOP] API를 통해 Hadoop 카운터 값에 액세스하는 방법은 무엇입니까? (0)	2019.06.30