[PYTHON] Robots.txt가 금단의 것 : scrapy
PYTHONRobots.txt가 금단의 것 : scrapy
https://www.netflix.com과 같은 웹 사이트를 크롤링하고 robots.txt가 금단의 페이지로 이동하는 동안 : https://www.netflix.com/>
오류 : https://www.netflix.com/에 대한 응답이 없습니다.
해결법
-
==============================
1.새 버전 (치료 1.1)에서 2016-05-11이 시작되면 크롤링 전에 크롤링은 먼저 robots.txt를 다운로드합니다. ROBOTSTXT_OBEY를 사용하여 settings.py에서이 동작 변경을 변경하려면
새 버전 (치료 1.1)에서 2016-05-11이 시작되면 크롤링 전에 크롤링은 먼저 robots.txt를 다운로드합니다. ROBOTSTXT_OBEY를 사용하여 settings.py에서이 동작 변경을 변경하려면
ROBOTSTXT_OBEY=False
릴리스 정보는 다음과 같습니다.
-
==============================
2.가장 먼저해야 할 일은 요청에서 사용자 에이전트를 변경하는 것입니다. 그렇지 않으면 기본 사용자 에이전트가 확실히 차단됩니다.
가장 먼저해야 할 일은 요청에서 사용자 에이전트를 변경하는 것입니다. 그렇지 않으면 기본 사용자 에이전트가 확실히 차단됩니다.
from https://stackoverflow.com/questions/37274835/getting-forbidden-by-robots-txt-scrapy by cc-by-sa and MIT license
'PYTHON' 카테고리의 다른 글
[PYTHON] Python에서 변수를 사용하여리스트 조각 내기 (0) | 2018.11.29 |
---|---|
[PYTHON] numpy / scipy 용 테스트 스위트가 있습니까? (0) | 2018.11.28 |
[PYTHON] ImportError : 'Queue'라는 모듈이 없습니다. (0) | 2018.11.28 |
[PYTHON] Matplotlib python show ()가 즉시 반환됩니다. (0) | 2018.11.28 |
[PYTHON] 어떻게하면 / proc / net / dev의 출력을 파이썬을 사용하여 인터페이스 당 key : value 쌍으로 파싱 할 수 있습니까? (0) | 2018.11.28 |