[HADOOP] 하둡 작업은 XML 파일을 분할하기
HADOOP하둡 작업은 XML 파일을 분할하기
내가 처리 할 파일 1000 년대있어. 각 파일은 함께 연결된 XML 파일의 1000 년대로 구성되어 있습니다.
나는 개별적으로 각각의 XML 파일을 분할 하둡을 사용하고 싶습니다. 이 사용 하둡을하는 좋은 방법이 있을까요?
참고 : 나는 총 하둡 초보자입니다. 나는 아마존 EMR을 사용하여 계획.
해결법
-
==============================
1.두싯의 XmlInputFormat를 확인하십시오. 이것이 두싯에서가 아니라 핵심 유통에 있음을 수치이다.
두싯의 XmlInputFormat를 확인하십시오. 이것이 두싯에서가 아니라 핵심 유통에 있음을 수치이다.
같은 형식으로 적어도 연결된다 XML 파일이 있습니까? 그렇다면, 당신은 파일의 각 루트에 START_TAG_KEY 및 END_TAG_KEY을 설정합니다. 각 파일은지도 한 텍스트 기록으로 표시됩니다. 그런 다음 작업을 완료 좋아하는 자바 XML 파서를 사용할 수 있습니다.
from https://stackoverflow.com/questions/10593168/hadoop-job-to-split-xml-files by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 아파치 돼지 아래 가방에서 모든 가능한 순열을 찾는 방법 (0) | 2019.09.24 |
---|---|
[HADOOP] 하이브 지원은 선택에서 선택 하는가? (0) | 2019.09.24 |
[HADOOP] java.lang.ClassNotFoundException가 :에 의한 org.apache.hadoop.mapreduce.InputFormat (0) | 2019.09.24 |
[HADOOP] 단어를 대체하는 스파크에 프로그램을 작성하는 방법 (0) | 2019.09.24 |
[HADOOP] 코끼리 조류와 하이브 예를 주소록 protobuf 데이터를 쿼리 할 수 없습니다 (0) | 2019.09.24 |