복붙노트

[PYTHON] html 페이지와 그 내용을 다운로드하십시오.

PYTHON

html 페이지와 그 내용을 다운로드하십시오.

파이썬은 전체 HTML 페이지와 그 내용 (이미지, CSS)을 URL이 주어진 로컬 폴더에 다운로드 할 수있는 방법이 있습니까? 그리고 로컬 HTML 파일을 업데이트하여 컨텐츠를 로컬에서 선택합니다.

해결법

  1. ==============================

    1.urllib 모듈을 사용하여 개별 URL을 다운로드 할 수 있지만 데이터를 반환 할뿐입니다. HTML을 구문 분석하지 않고 CSS 파일과 이미지를 자동으로 다운로드합니다.

    urllib 모듈을 사용하여 개별 URL을 다운로드 할 수 있지만 데이터를 반환 할뿐입니다. HTML을 구문 분석하지 않고 CSS 파일과 이미지를 자동으로 다운로드합니다.

    "전체"페이지를 다운로드하려면 HTML을 구문 분석하고 다운로드해야하는 다른 항목을 찾아야합니다. Beautiful Soup와 같은 것을 사용하여 검색하는 HTML을 구문 분석 할 수 있습니다.

    이 질문에는 정확히 수행하는 샘플 코드가 있습니다.

  2. ==============================

    2.당신이 찾고있는 것은 미러링 도구입니다. Python에서 파이썬을 원한다면 PyPI는 spider.py를 나열하지만 경험이 없습니다. 다른 것들은 더 좋을지 모르지만 나는 모른다. 나는 CSS와 이미지를 얻는 것을 지원하는 'wget'을 사용한다. 이것은 아마도 당신이 원하는 것을 수행합니다 (설명서에서 인용)

    당신이 찾고있는 것은 미러링 도구입니다. Python에서 파이썬을 원한다면 PyPI는 spider.py를 나열하지만 경험이 없습니다. 다른 것들은 더 좋을지 모르지만 나는 모른다. 나는 CSS와 이미지를 얻는 것을 지원하는 'wget'을 사용한다. 이것은 아마도 당신이 원하는 것을 수행합니다 (설명서에서 인용)

    wget -p --convert-links http://www.server.com/dir/page.html
    
  3. ==============================

    3.urllib을 사용할 수 있습니다.

    urllib을 사용할 수 있습니다.

    import urllib.request
    
    opener = urllib.request.FancyURLopener({})
    url = "http://stackoverflow.com/"
    f = opener.open(url)
    content = f.read()
    
  4. from https://stackoverflow.com/questions/1825438/download-html-page-and-its-content by cc-by-sa and MIT license