복붙노트

[HADOOP] 하둡 작업은 XML 파일을 분할하기

HADOOP

하둡 작업은 XML 파일을 분할하기

내가 처리 할 파일 1000 년대있어. 각 파일은 함께 연결된 XML 파일의 1000 년대로 구성되어 있습니다.

나는 개별적으로 각각의 XML 파일을 분할 하둡을 사용하고 싶습니다. 이 사용 하둡을하는 좋은 방법이 있을까요?

참고 : 나는 총 하둡 초보자입니다. 나는 아마존 EMR을 사용하여 계획.

해결법

  1. ==============================

    1.두싯의 XmlInputFormat를 확인하십시오. 이것이 두싯에서가 아니라 핵심 유통에 있음을 수치이다.

    두싯의 XmlInputFormat를 확인하십시오. 이것이 두싯에서가 아니라 핵심 유통에 있음을 수치이다.

    같은 형식으로 적어도 연결된다 XML 파일이 있습니까? 그렇다면, 당신은 파일의 각 루트에 START_TAG_KEY 및 END_TAG_KEY을 설정합니다. 각 파일은지도 한 텍스트 기록으로 표시됩니다. 그런 다음 작업을 완료 좋아하는 자바 XML 파서를 사용할 수 있습니다.

  2. from https://stackoverflow.com/questions/10593168/hadoop-job-to-split-xml-files by cc-by-sa and MIT license