복붙노트

[HADOOP] Apache Nutch를 사용하여 .pdf 링크를 크롤링하는 방법

HADOOP

Apache Nutch를 사용하여 .pdf 링크를 크롤링하는 방법

pdf 파일에 대한 링크가 포함 된 크롤링 할 웹 사이트가 있습니다. nutch가 해당 링크를 크롤링하고 .pdf 파일로 덤프하고 싶습니다. 나는 Apache Nutch1.6을 사용하고 있습니다.

ToolRunner.run(NutchConfiguration.create(), new Crawl(),
                                 tokenize(crawlArg));
 SegmentReader.main(tokenize(dumpArg));

어떤 사람이 이것에 나를 도울 수 있습니까

해결법

  1. ==============================

    1.Nutch가 PDF 문서를 크롤링하고 색인을 생성하려면 문서 크롤링 및 Tika 플러그인을 활성화해야합니다.

    Nutch가 PDF 문서를 크롤링하고 색인을 생성하려면 문서 크롤링 및 Tika 플러그인을 활성화해야합니다.

  2. ==============================

    2.pdf mimetype을위한 자체 플러그인을 작성하거나 pdf에서 텍스트를 검색 할 수있는 apache-tika 파서가 내장되어 있습니다.

    pdf mimetype을위한 자체 플러그인을 작성하거나 pdf에서 텍스트를 검색 할 수있는 apache-tika 파서가 내장되어 있습니다.

  3. from https://stackoverflow.com/questions/17442052/how-to-crawl-pdf-links-using-apache-nutch by cc-by-sa and MIT license