복붙노트

[HADOOP] Hadoop Map Reduce에서 PDF 파일 파싱

HADOOP

Hadoop Map Reduce에서 PDF 파일 파싱

Hadoop의지도 축소 프로그램에서 HDFS에있는 PDF 파일을 구문 분석해야합니다. 그래서 HDFS에서 PDF 파일을 Input Split으로 얻습니다.이 파일은 구문 분석되어 Mapper 클래스로 보내야합니다. 이 InputFormat을 구현하기 위해이 링크를 살펴 보았습니다. 이러한 입력 분할은 어떻게 파싱되어 텍스트 형식으로 변환 될 수 있습니까?

해결법

  1. ==============================

    1.Hadoop에서 PDF 파일 처리는 FileInputFormat 클래스를 확장하여 수행 할 수 있습니다. 그것을 확장하는 클래스가 WholeFileInputFormat이되도록하십시오. WholeFileInputFormat 클래스에서 getRecordReader () 메서드를 재정의합니다. 이제 각 PDF는 개별 입력 분할로 수신됩니다. 그런 다음 이러한 개별 분할을 구문 분석하여 텍스트를 추출 할 수 있습니다. 이 링크는 FileInputFormat을 확장하는 방법을 이해하는 명확한 예를 제공합니다.

    Hadoop에서 PDF 파일 처리는 FileInputFormat 클래스를 확장하여 수행 할 수 있습니다. 그것을 확장하는 클래스가 WholeFileInputFormat이되도록하십시오. WholeFileInputFormat 클래스에서 getRecordReader () 메서드를 재정의합니다. 이제 각 PDF는 개별 입력 분할로 수신됩니다. 그런 다음 이러한 개별 분할을 구문 분석하여 텍스트를 추출 할 수 있습니다. 이 링크는 FileInputFormat을 확장하는 방법을 이해하는 명확한 예를 제공합니다.

  2. ==============================

    2.그것은 당신의 분열에 달려 있습니다. 난 (잘못 될 수도있다) 당신이 그것을 파싱하기 위해서 전체적으로 각 PDF를 필요로한다고 생각한다. 이를 수행 할 Java 라이브러리가 있으며 Google은 그 위치를 알고 있습니다.

    그것은 당신의 분열에 달려 있습니다. 난 (잘못 될 수도있다) 당신이 그것을 파싱하기 위해서 전체적으로 각 PDF를 필요로한다고 생각한다. 이를 수행 할 Java 라이브러리가 있으며 Google은 그 위치를 알고 있습니다.

    그렇다면 파싱 할 준비가되었을 때 전체 파일을 가지고있는 접근법을 사용해야합니다. 매퍼에서 그렇게하고 싶다고 가정하면 전체 파일을 매퍼로 넘길 독자가 필요합니다. 자신의 독자를 써서 이것을 할 수도 있고, 이미 거기에있는 독자가있을 수도 있습니다. PDF 디렉토리를 스캔하고 각 파일의 이름을 매퍼로 키로, 내용을 값으로 전달하는 독자를 만들 수 있습니다.

  3. from https://stackoverflow.com/questions/9427747/parsing-pdf-files-in-hadoop-map-reduce by cc-by-sa and MIT license