Hadoop Map Reduce에서 PDF 파일 파싱

Hadoop의지도 축소 프로그램에서 HDFS에있는 PDF 파일을 구문 분석해야합니다. 그래서 HDFS에서 PDF 파일을 Input Split으로 얻습니다.이 파일은 구문 분석되어 Mapper 클래스로 보내야합니다. 이 InputFormat을 구현하기 위해이 링크를 살펴 보았습니다. 이러한 입력 분할은 어떻게 파싱되어 텍스트 형식으로 변환 될 수 있습니까?

해결법

==============================
1.Hadoop에서 PDF 파일 처리는 FileInputFormat 클래스를 확장하여 수행 할 수 있습니다. 그것을 확장하는 클래스가 WholeFileInputFormat이되도록하십시오. WholeFileInputFormat 클래스에서 getRecordReader () 메서드를 재정의합니다. 이제 각 PDF는 개별 입력 분할로 수신됩니다. 그런 다음 이러한 개별 분할을 구문 분석하여 텍스트를 추출 할 수 있습니다. 이 링크는 FileInputFormat을 확장하는 방법을 이해하는 명확한 예를 제공합니다.

Hadoop에서 PDF 파일 처리는 FileInputFormat 클래스를 확장하여 수행 할 수 있습니다. 그것을 확장하는 클래스가 WholeFileInputFormat이되도록하십시오. WholeFileInputFormat 클래스에서 getRecordReader () 메서드를 재정의합니다. 이제 각 PDF는 개별 입력 분할로 수신됩니다. 그런 다음 이러한 개별 분할을 구문 분석하여 텍스트를 추출 할 수 있습니다. 이 링크는 FileInputFormat을 확장하는 방법을 이해하는 명확한 예를 제공합니다.
==============================
2.그것은 당신의 분열에 달려 있습니다. 난 (잘못 될 수도있다) 당신이 그것을 파싱하기 위해서 전체적으로 각 PDF를 필요로한다고 생각한다. 이를 수행 할 Java 라이브러리가 있으며 Google은 그 위치를 알고 있습니다.

그것은 당신의 분열에 달려 있습니다. 난 (잘못 될 수도있다) 당신이 그것을 파싱하기 위해서 전체적으로 각 PDF를 필요로한다고 생각한다. 이를 수행 할 Java 라이브러리가 있으며 Google은 그 위치를 알고 있습니다.

그렇다면 파싱 할 준비가되었을 때 전체 파일을 가지고있는 접근법을 사용해야합니다. 매퍼에서 그렇게하고 싶다고 가정하면 전체 파일을 매퍼로 넘길 독자가 필요합니다. 자신의 독자를 써서 이것을 할 수도 있고, 이미 거기에있는 독자가있을 수도 있습니다. PDF 디렉토리를 스캔하고 각 파일의 이름을 매퍼로 키로, 내용을 값으로 전달하는 독자를 만들 수 있습니다.

from https://stackoverflow.com/questions/9427747/parsing-pdf-files-in-hadoop-map-reduce by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] hadoop은 어떻게 입력 파일을 읽습니까? (0)	2019.07.27
[HADOOP] Java Hadoop : 입력 파일로 가져와 각 파일의 줄 수를 출력하는 매퍼를 어떻게 만들 수 있습니까? (0)	2019.07.27
[HADOOP] Hadoop을 Google Cloud Storage에 연결할 수 없습니다. (0)	2019.07.27
[HADOOP] Hadoop 프로그램에서 출력 키 / 값 클래스를 명시 적으로 설정해야하는 이유는 무엇입니까? (0)	2019.07.27
[HADOOP] HBase 테이블에서 모든 열 이름을 가져올 수 있습니까? (0)	2019.07.27

복붙노트

[HADOOP] Hadoop Map Reduce에서 PDF 파일 파싱

Hadoop Map Reduce에서 PDF 파일 파싱

해결법

2.그것은 당신의 분열에 달려 있습니다. 난 (잘못 될 수도있다) 당신이 그것을 파싱하기 위해서 전체적으로 각 PDF를 필요로한다고 생각한다. 이를 수행 할 Java 라이브러리가 있으며 Google은 그 위치를 알고 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바