복붙노트

[HADOOP] 맵리 듀스 하둡에 대한 PDF 입력 형식

HADOOP

맵리 듀스 하둡에 대한 PDF 입력 형식

안녕 나는 맵리 듀스에서 PDF 입력 파일을 구문 분석 PDFBOX 외부 라이브러리를 사용하여 ANM, 그러나 나는 다음과 같은 오류를 얻고있다.

나는 다음과 같은 의존성을 사용하고 있습니다

<dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>1.8.10</version>
    </dependency>
    <dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>fontbox</artifactId>
        <version>1.8.5</version>
    </dependency>

해결법

  1. ==============================

    1.1) 너무 하둡 lib 폴더에 pdfbox의 jar 파일을 넣습니다. () 런타임에 하둡 라이브러리 항아리를 사용할 수 있도록.

    1) 너무 하둡 lib 폴더에 pdfbox의 jar 파일을 넣습니다. () 런타임에 하둡 라이브러리 항아리를 사용할 수 있도록.

    2) 다시 시작 하둡 클러스터.

    또는

    1) pdfbox 라이브러리 분산 캐시에 배치하여 하둡 할 수 있는지 확인합니다.

  2. from https://stackoverflow.com/questions/34179610/pdf-input-format-for-mapreduce-hadoop by cc-by-sa and MIT license