[HADOOP] Apache Nutch를 사용하여 .pdf 링크를 크롤링하는 방법
HADOOPApache Nutch를 사용하여 .pdf 링크를 크롤링하는 방법
pdf 파일에 대한 링크가 포함 된 크롤링 할 웹 사이트가 있습니다. nutch가 해당 링크를 크롤링하고 .pdf 파일로 덤프하고 싶습니다. 나는 Apache Nutch1.6을 사용하고 있습니다.
ToolRunner.run(NutchConfiguration.create(), new Crawl(),
tokenize(crawlArg));
SegmentReader.main(tokenize(dumpArg));
어떤 사람이 이것에 나를 도울 수 있습니까
해결법
-
==============================
1.Nutch가 PDF 문서를 크롤링하고 색인을 생성하려면 문서 크롤링 및 Tika 플러그인을 활성화해야합니다.
Nutch가 PDF 문서를 크롤링하고 색인을 생성하려면 문서 크롤링 및 Tika 플러그인을 활성화해야합니다.
-
==============================
2.pdf mimetype을위한 자체 플러그인을 작성하거나 pdf에서 텍스트를 검색 할 수있는 apache-tika 파서가 내장되어 있습니다.
pdf mimetype을위한 자체 플러그인을 작성하거나 pdf에서 텍스트를 검색 할 수있는 apache-tika 파서가 내장되어 있습니다.
from https://stackoverflow.com/questions/17442052/how-to-crawl-pdf-links-using-apache-nutch by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] HTTP 콜백으로 외부 클라이언트가 Oozie 워크 플로우에 알리는 방법 (0) | 2019.08.09 |
---|---|
[HADOOP] 하둡 순차 데이터 액세스 (0) | 2019.08.09 |
[HADOOP] 하이브 다중 열 변경 (0) | 2019.08.09 |
[HADOOP] java.lang.ClassCastException 가져 오기 : 간단한 MapReduce 프로그램 실행시 클래스 java.lang.String (0) | 2019.08.08 |
[HADOOP] Amazon EMR : 데이터 노드에서 스토리지 구성 (0) | 2019.08.08 |