[HADOOP] Hadoop 용 큰 XML 파일을 관리 가능한 섹션으로 분할
HADOOPHadoop 용 큰 XML 파일을 관리 가능한 섹션으로 분할
Hadoop의 트리 구조를 기반으로 [여러] 대형 XML 파일을 처리 할 입력 클래스가 있습니까? 동일한 스키마의 XML 파일 집합이 있지만 섹션을 분리하는 대신 데이터 섹션으로 분할해야합니다.
예를 들어 XML 파일은 다음과 같습니다.
<root>
<parent> data </parent>
<parent> more data</parent>
<parent> even more data</parent>
</root>
각 섹션을 다음과 같이 정의합니다. / root / parent.
내가 묻는 것은 Hadoop에 이미 포함 된 레코드 입력 리더가 있는가?
해결법
-
==============================
1.UMD의 Cloud9 프로젝트가이 작업에 도움이 될 것으로 생각합니다.
UMD의 Cloud9 프로젝트가이 작업에 도움이 될 것으로 생각합니다.
라이브러리 제공에는 사용할 수있는 XMLInputFormat 클래스가 있습니다.
MapReduce에서 Wikipedia의 XML 덤프를 처리하는 방법을 보여주는 Cloud9 설명서의이 페이지도 중요합니다.
from https://stackoverflow.com/questions/2374354/splitting-large-xml-files-into-manageble-sections-for-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Hadoop MapReduce - 각 입력에 대해 하나의 출력 파일 (0) | 2019.06.20 |
---|---|
[HADOOP] 색조 : 파일 시스템 루트에 액세스하지 못했습니다. (0) | 2019.06.20 |
[HADOOP] Hadoop에서 사용자 정의 구성 값 전파 (0) | 2019.06.20 |
[HADOOP] Hadoop : HDFS 파일 쓰기 및 읽기 (0) | 2019.06.20 |
[HADOOP] HBase 오류 : zookeeper.znode.parent 불일치 (0) | 2019.06.20 |