[HADOOP] 맵리 듀스 하둡에 대한 PDF 입력 형식
HADOOP맵리 듀스 하둡에 대한 PDF 입력 형식
안녕 나는 맵리 듀스에서 PDF 입력 파일을 구문 분석 PDFBOX 외부 라이브러리를 사용하여 ANM, 그러나 나는 다음과 같은 오류를 얻고있다.
나는 다음과 같은 의존성을 사용하고 있습니다
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>1.8.10</version>
</dependency>
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>fontbox</artifactId>
<version>1.8.5</version>
</dependency>
해결법
-
==============================
1.1) 너무 하둡 lib 폴더에 pdfbox의 jar 파일을 넣습니다. () 런타임에 하둡 라이브러리 항아리를 사용할 수 있도록.
1) 너무 하둡 lib 폴더에 pdfbox의 jar 파일을 넣습니다. () 런타임에 하둡 라이브러리 항아리를 사용할 수 있도록.
2) 다시 시작 하둡 클러스터.
또는
1) pdfbox 라이브러리 분산 캐시에 배치하여 하둡 할 수 있는지 확인합니다.
from https://stackoverflow.com/questions/34179610/pdf-input-format-for-mapreduce-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 종료 상태의 하이브 배치 모드 목록? (0) | 2019.10.19 |
---|---|
[HADOOP] 파일 코디네이터 oozie 설정에 존재하지 않는 경우 오류를 해결하는 방법 (0) | 2019.10.18 |
[HADOOP] HDFS 나는 가용성을 높이기 위해 파일 당 복제 요소를 지정할 수 있습니다 (0) | 2019.10.18 |
[HADOOP] bash는 파일에 매핑 할 수있는 몇 가지 일반적인 HDFS 명령은 무엇입니까? (0) | 2019.10.18 |
[HADOOP] 어떻게 하이브 버킷에 작품을 해싱? (0) | 2019.10.18 |