복붙노트

[PYTHON] Robots.txt가 금단의 것 : scrapy

PYTHON

Robots.txt가 금단의 것 : scrapy

https://www.netflix.com과 같은 웹 사이트를 크롤링하고 robots.txt가 금단의 페이지로 이동하는 동안 : https://www.netflix.com/>

오류 : https://www.netflix.com/에 대한 응답이 없습니다.

해결법

  1. ==============================

    1.새 버전 (치료 1.1)에서 2016-05-11이 시작되면 크롤링 전에 크롤링은 먼저 robots.txt를 다운로드합니다. ROBOTSTXT_OBEY를 사용하여 settings.py에서이 동작 변경을 변경하려면

    새 버전 (치료 1.1)에서 2016-05-11이 시작되면 크롤링 전에 크롤링은 먼저 robots.txt를 다운로드합니다. ROBOTSTXT_OBEY를 사용하여 settings.py에서이 동작 변경을 변경하려면

    ROBOTSTXT_OBEY=False
    

    릴리스 정보는 다음과 같습니다.

  2. ==============================

    2.가장 먼저해야 할 일은 요청에서 사용자 에이전트를 변경하는 것입니다. 그렇지 않으면 기본 사용자 에이전트가 확실히 차단됩니다.

    가장 먼저해야 할 일은 요청에서 사용자 에이전트를 변경하는 것입니다. 그렇지 않으면 기본 사용자 에이전트가 확실히 차단됩니다.

  3. from https://stackoverflow.com/questions/37274835/getting-forbidden-by-robots-txt-scrapy by cc-by-sa and MIT license