Apache Nutch를 사용하여 .pdf 링크를 크롤링하는 방법

pdf 파일에 대한 링크가 포함 된 크롤링 할 웹 사이트가 있습니다. nutch가 해당 링크를 크롤링하고 .pdf 파일로 덤프하고 싶습니다. 나는 Apache Nutch1.6을 사용하고 있습니다.

ToolRunner.run(NutchConfiguration.create(), new Crawl(),
                                 tokenize(crawlArg));
 SegmentReader.main(tokenize(dumpArg));

어떤 사람이 이것에 나를 도울 수 있습니까

해결법

==============================
1.Nutch가 PDF 문서를 크롤링하고 색인을 생성하려면 문서 크롤링 및 Tika 플러그인을 활성화해야합니다.

Nutch가 PDF 문서를 크롤링하고 색인을 생성하려면 문서 크롤링 및 Tika 플러그인을 활성화해야합니다.
==============================
2.pdf mimetype을위한 자체 플러그인을 작성하거나 pdf에서 텍스트를 검색 할 수있는 apache-tika 파서가 내장되어 있습니다.

pdf mimetype을위한 자체 플러그인을 작성하거나 pdf에서 텍스트를 검색 할 수있는 apache-tika 파서가 내장되어 있습니다.

from https://stackoverflow.com/questions/17442052/how-to-crawl-pdf-links-using-apache-nutch by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] HTTP 콜백으로 외부 클라이언트가 Oozie 워크 플로우에 알리는 방법 (0)	2019.08.09
[HADOOP] 하둡 순차 데이터 액세스 (0)	2019.08.09
[HADOOP] 하이브 다중 열 변경 (0)	2019.08.09
[HADOOP] java.lang.ClassCastException 가져 오기 : 간단한 MapReduce 프로그램 실행시 클래스 java.lang.String (0)	2019.08.08
[HADOOP] Amazon EMR : 데이터 노드에서 스토리지 구성 (0)	2019.08.08

복붙노트

[HADOOP] Apache Nutch를 사용하여 .pdf 링크를 크롤링하는 방법

Apache Nutch를 사용하여 .pdf 링크를 크롤링하는 방법

해결법

1.Nutch가 PDF 문서를 크롤링하고 색인을 생성하려면 문서 크롤링 및 Tika 플러그인을 활성화해야합니다.

2.pdf mimetype을위한 자체 플러그인을 작성하거나 pdf에서 텍스트를 검색 할 수있는 apache-tika 파서가 내장되어 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바