복붙노트

[HADOOP] Hadoop에서 pdf 파일의 데이터에 액세스하고 조작하는 방법은 무엇입니까?

HADOOP

Hadoop에서 pdf 파일의 데이터에 액세스하고 조작하는 방법은 무엇입니까?

내가 hadoop을 사용하여 PDF 파일을 읽고 싶습니다. 어떻게 가능합니까? 나는 단지 hadoop이 txt 파일 만 처리 할 수 ​​있다는 것을 알고 있으므로 어쨌든 txt에 PDF 파일을 구문 분석 할 수 있습니다.

나에게 제안 해줘.

해결법

  1. ==============================

    1.쉬운 방법은 SequenceFile을 만들어 PDF 파일을 포함하는 것입니다. SequenceFile은 2 진 파일 형식입니다. SequenceFile의 각 레코드를 PDF로 만들 수 있습니다. 이렇게하려면 PDF와 필요한 메타 데이터가 포함 된 Writable에서 파생 된 클래스를 만듭니다. 그런 다음 PDFBox와 같은 모든 Java PDF 라이브러리를 사용하여 PDF를 조작 할 수 있습니다.

    쉬운 방법은 SequenceFile을 만들어 PDF 파일을 포함하는 것입니다. SequenceFile은 2 진 파일 형식입니다. SequenceFile의 각 레코드를 PDF로 만들 수 있습니다. 이렇게하려면 PDF와 필요한 메타 데이터가 포함 된 Writable에서 파생 된 클래스를 만듭니다. 그런 다음 PDFBox와 같은 모든 Java PDF 라이브러리를 사용하여 PDF를 조작 할 수 있습니다.

  2. ==============================

    2.Hadoop에서 PDF 파일 처리는 FileInputFormat 클래스를 확장하여 수행 할 수 있습니다. 그것을 확장하는 클래스가 WholeFileInputFormat이되도록하십시오. WholeFileInputFormat 클래스에서 getRecordReader () 메서드를 재정의합니다. 이제 각 PDF는 개별 입력 분할로 수신됩니다. 그런 다음 이러한 개별 분할을 구문 분석하여 텍스트를 추출 할 수 있습니다. 이 링크는 FileInputFormat을 확장하는 방법을 이해하는 명확한 예를 제공합니다.

    Hadoop에서 PDF 파일 처리는 FileInputFormat 클래스를 확장하여 수행 할 수 있습니다. 그것을 확장하는 클래스가 WholeFileInputFormat이되도록하십시오. WholeFileInputFormat 클래스에서 getRecordReader () 메서드를 재정의합니다. 이제 각 PDF는 개별 입력 분할로 수신됩니다. 그런 다음 이러한 개별 분할을 구문 분석하여 텍스트를 추출 할 수 있습니다. 이 링크는 FileInputFormat을 확장하는 방법을 이해하는 명확한 예를 제공합니다.

  3. from https://stackoverflow.com/questions/9290119/how-to-access-and-manipulate-pdf-files-datas-in-hadoop by cc-by-sa and MIT license