복붙노트

[HADOOP] Mapreduce XML 입력 형식-사용자 정의 형식 작성

HADOOP

Mapreduce XML 입력 형식-사용자 정의 형식 작성

XML 형식의 입력 파일 인 경우 TextInputFormat은 각 레코드가 입력 파일의 각 줄에 있다고 가정하고 매 줄마다 해당 레코드 / 줄의 키 값 쌍을 얻기 위해 매퍼 클래스가 호출되기 때문에 TextInputFormat을 사용해서는 안됩니다.

XML 데이터 세트를 스캔하려면 사용자 정의 입력 형식이 필요하다고 생각합니다.

Hadoop mapreduce를 처음 사용하면서 사용자 정의 입력 형식을 작성하는 단계를 보여주는 기사 / 링크 / 비디오가 있습니까?

감사 nath

해결법

  1. ==============================

    1.문제 XML에 데이터 형식의 동기화 마커가 없기 때문에 MapReduce에서 단일 XML 파일을 병렬로 작업하는 것은 까다 롭습니다. 따라서 XML처럼 본질적으로 분리 할 수없는 파일 형식으로 작업하는 방법은 무엇입니까?

    문제 XML에 데이터 형식의 동기화 마커가 없기 때문에 MapReduce에서 단일 XML 파일을 병렬로 작업하는 것은 까다 롭습니다. 따라서 XML처럼 본질적으로 분리 할 수없는 파일 형식으로 작업하는 방법은 무엇입니까?

    해결책 MapReduce에는 XML에 대한 기본 지원 기능이 포함되어 있지 않으므로 XML InputFormat을 제공하는 기계 학습 시스템 인 Mahout이라는 다른 Apache 프로젝트로 전환해야합니다.

    따라서 Mahout 라이브러리가 존재하므로 사용자 정의 입력 형식이 필요하지 않습니다. 나는 당신이 읽고 쓸 것인지 확실하지 않지만 둘 다 위의 링크에 설명되어 있습니다.

    Pls는 여기에서 XmlInputFormat 구현 세부 사항을 살펴보십시오.

    또한 XmlInputFormat은 TextInputFormat을 확장합니다.

  2. from https://stackoverflow.com/questions/37848347/mapreduce-xml-input-format-to-build-custom-format by cc-by-sa and MIT license