[HADOOP] Mapreduce XML 입력 형식-사용자 정의 형식 작성

2019. 9. 15. 19:16

cnpnote

HADOOP

Mapreduce XML 입력 형식-사용자 정의 형식 작성

XML 형식의 입력 파일 인 경우 TextInputFormat은 각 레코드가 입력 파일의 각 줄에 있다고 가정하고 매 줄마다 해당 레코드 / 줄의 키 값 쌍을 얻기 위해 매퍼 클래스가 호출되기 때문에 TextInputFormat을 사용해서는 안됩니다.

XML 데이터 세트를 스캔하려면 사용자 정의 입력 형식이 필요하다고 생각합니다.

Hadoop mapreduce를 처음 사용하면서 사용자 정의 입력 형식을 작성하는 단계를 보여주는 기사 / 링크 / 비디오가 있습니까?

감사 nath

해결법

==============================
1.문제 XML에 데이터 형식의 동기화 마커가 없기 때문에 MapReduce에서 단일 XML 파일을 병렬로 작업하는 것은 까다 롭습니다. 따라서 XML처럼 본질적으로 분리 할 수없는 파일 형식으로 작업하는 방법은 무엇입니까?

문제 XML에 데이터 형식의 동기화 마커가 없기 때문에 MapReduce에서 단일 XML 파일을 병렬로 작업하는 것은 까다 롭습니다. 따라서 XML처럼 본질적으로 분리 할 수없는 파일 형식으로 작업하는 방법은 무엇입니까?

해결책 MapReduce에는 XML에 대한 기본 지원 기능이 포함되어 있지 않으므로 XML InputFormat을 제공하는 기계 학습 시스템 인 Mahout이라는 다른 Apache 프로젝트로 전환해야합니다.

따라서 Mahout 라이브러리가 존재하므로 사용자 정의 입력 형식이 필요하지 않습니다. 나는 당신이 읽고 쓸 것인지 확실하지 않지만 둘 다 위의 링크에 설명되어 있습니다.

Pls는 여기에서 XmlInputFormat 구현 세부 사항을 살펴보십시오.

또한 XmlInputFormat은 TextInputFormat을 확장합니다.

from https://stackoverflow.com/questions/37848347/mapreduce-xml-input-format-to-build-custom-format by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] hadoop-총 매퍼가 결정되는 방법 (0)	2019.09.15
[HADOOP] Hive / Pig / MapReduce를 사용하여 재귀 계층 구조를 병합하는 방법 (0)	2019.09.15
[HADOOP] Tez 및 Map reduce에서 "count (*)"를 실행하는 동안 동작의 차이 (0)	2019.09.15
[HADOOP] Hive, Impala 또는 Pig에서 문자열 일치로 테이블 조인 (0)	2019.09.15
[HADOOP] HADOOP-간단한 MR 작업에서 위상 중단을 줄입니다 (0)	2019.09.15

,

티스토리툴바