[HADOOP] Hadoop에서 pdf 파일의 데이터에 액세스하고 조작하는 방법은 무엇입니까?
HADOOPHadoop에서 pdf 파일의 데이터에 액세스하고 조작하는 방법은 무엇입니까?
내가 hadoop을 사용하여 PDF 파일을 읽고 싶습니다. 어떻게 가능합니까? 나는 단지 hadoop이 txt 파일 만 처리 할 수 있다는 것을 알고 있으므로 어쨌든 txt에 PDF 파일을 구문 분석 할 수 있습니다.
나에게 제안 해줘.
해결법
-
==============================
1.쉬운 방법은 SequenceFile을 만들어 PDF 파일을 포함하는 것입니다. SequenceFile은 2 진 파일 형식입니다. SequenceFile의 각 레코드를 PDF로 만들 수 있습니다. 이렇게하려면 PDF와 필요한 메타 데이터가 포함 된 Writable에서 파생 된 클래스를 만듭니다. 그런 다음 PDFBox와 같은 모든 Java PDF 라이브러리를 사용하여 PDF를 조작 할 수 있습니다.
쉬운 방법은 SequenceFile을 만들어 PDF 파일을 포함하는 것입니다. SequenceFile은 2 진 파일 형식입니다. SequenceFile의 각 레코드를 PDF로 만들 수 있습니다. 이렇게하려면 PDF와 필요한 메타 데이터가 포함 된 Writable에서 파생 된 클래스를 만듭니다. 그런 다음 PDFBox와 같은 모든 Java PDF 라이브러리를 사용하여 PDF를 조작 할 수 있습니다.
-
==============================
2.Hadoop에서 PDF 파일 처리는 FileInputFormat 클래스를 확장하여 수행 할 수 있습니다. 그것을 확장하는 클래스가 WholeFileInputFormat이되도록하십시오. WholeFileInputFormat 클래스에서 getRecordReader () 메서드를 재정의합니다. 이제 각 PDF는 개별 입력 분할로 수신됩니다. 그런 다음 이러한 개별 분할을 구문 분석하여 텍스트를 추출 할 수 있습니다. 이 링크는 FileInputFormat을 확장하는 방법을 이해하는 명확한 예를 제공합니다.
Hadoop에서 PDF 파일 처리는 FileInputFormat 클래스를 확장하여 수행 할 수 있습니다. 그것을 확장하는 클래스가 WholeFileInputFormat이되도록하십시오. WholeFileInputFormat 클래스에서 getRecordReader () 메서드를 재정의합니다. 이제 각 PDF는 개별 입력 분할로 수신됩니다. 그런 다음 이러한 개별 분할을 구문 분석하여 텍스트를 추출 할 수 있습니다. 이 링크는 FileInputFormat을 확장하는 방법을 이해하는 명확한 예를 제공합니다.
from https://stackoverflow.com/questions/9290119/how-to-access-and-manipulate-pdf-files-datas-in-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 필수 입력란 'client_protocol'이 설정되지 않았습니다. (0) | 2019.06.22 |
---|---|
[HADOOP] 돼지 튜플을 Python UDF에 전달할 수 없습니다. (0) | 2019.06.22 |
[HADOOP] 하이브의 시퀀스 파일 형식 및 마루판 파일 형식은 무엇입니까? (0) | 2019.06.22 |
[HADOOP] java.lang.OutOfMemoryError : 100 바이트의 메모리를 확보 할 수 없습니다. 0을가집니다. (0) | 2019.06.22 |
[HADOOP] hadoop 2.4.1에서 namenode를 시작하는 중 오류가 발생했습니다. (0) | 2019.06.22 |