복붙노트

[HADOOP] Hadoop 용 큰 XML 파일을 관리 가능한 섹션으로 분할

HADOOP

Hadoop 용 큰 XML 파일을 관리 가능한 섹션으로 분할

Hadoop의 트리 구조를 기반으로 [여러] 대형 XML 파일을 처리 할 입력 클래스가 있습니까? 동일한 스키마의 XML 파일 집합이 있지만 섹션을 분리하는 대신 데이터 섹션으로 분할해야합니다.

예를 들어 XML 파일은 다음과 같습니다.

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

각 섹션을 다음과 같이 정의합니다. / root / parent.

내가 묻는 것은 Hadoop에 이미 포함 된 레코드 입력 리더가 있는가?

해결법

  1. ==============================

    1.UMD의 Cloud9 프로젝트가이 작업에 도움이 될 것으로 생각합니다.

    UMD의 Cloud9 프로젝트가이 작업에 도움이 될 것으로 생각합니다.

    라이브러리 제공에는 사용할 수있는 XMLInputFormat 클래스가 있습니다.

    MapReduce에서 Wikipedia의 XML 덤프를 처리하는 방법을 보여주는 Cloud9 설명서의이 페이지도 중요합니다.

  2. from https://stackoverflow.com/questions/2374354/splitting-large-xml-files-into-manageble-sections-for-hadoop by cc-by-sa and MIT license