[HADOOP] Mapreduce XML 입력 형식-사용자 정의 형식 작성
HADOOPMapreduce XML 입력 형식-사용자 정의 형식 작성
XML 형식의 입력 파일 인 경우 TextInputFormat은 각 레코드가 입력 파일의 각 줄에 있다고 가정하고 매 줄마다 해당 레코드 / 줄의 키 값 쌍을 얻기 위해 매퍼 클래스가 호출되기 때문에 TextInputFormat을 사용해서는 안됩니다.
XML 데이터 세트를 스캔하려면 사용자 정의 입력 형식이 필요하다고 생각합니다.
Hadoop mapreduce를 처음 사용하면서 사용자 정의 입력 형식을 작성하는 단계를 보여주는 기사 / 링크 / 비디오가 있습니까?
감사 nath
해결법
-
==============================
1.문제 XML에 데이터 형식의 동기화 마커가 없기 때문에 MapReduce에서 단일 XML 파일을 병렬로 작업하는 것은 까다 롭습니다. 따라서 XML처럼 본질적으로 분리 할 수없는 파일 형식으로 작업하는 방법은 무엇입니까?
문제 XML에 데이터 형식의 동기화 마커가 없기 때문에 MapReduce에서 단일 XML 파일을 병렬로 작업하는 것은 까다 롭습니다. 따라서 XML처럼 본질적으로 분리 할 수없는 파일 형식으로 작업하는 방법은 무엇입니까?
해결책 MapReduce에는 XML에 대한 기본 지원 기능이 포함되어 있지 않으므로 XML InputFormat을 제공하는 기계 학습 시스템 인 Mahout이라는 다른 Apache 프로젝트로 전환해야합니다.
따라서 Mahout 라이브러리가 존재하므로 사용자 정의 입력 형식이 필요하지 않습니다. 나는 당신이 읽고 쓸 것인지 확실하지 않지만 둘 다 위의 링크에 설명되어 있습니다.
Pls는 여기에서 XmlInputFormat 구현 세부 사항을 살펴보십시오.
또한 XmlInputFormat은 TextInputFormat을 확장합니다.
from https://stackoverflow.com/questions/37848347/mapreduce-xml-input-format-to-build-custom-format by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hadoop-총 매퍼가 결정되는 방법 (0) | 2019.09.15 |
---|---|
[HADOOP] Hive / Pig / MapReduce를 사용하여 재귀 계층 구조를 병합하는 방법 (0) | 2019.09.15 |
[HADOOP] Tez 및 Map reduce에서 "count (*)"를 실행하는 동안 동작의 차이 (0) | 2019.09.15 |
[HADOOP] Hive, Impala 또는 Pig에서 문자열 일치로 테이블 조인 (0) | 2019.09.15 |
[HADOOP] HADOOP-간단한 MR 작업에서 위상 중단을 줄입니다 (0) | 2019.09.15 |