Python爬蟲學習 獲取網頁

2021-09-07 08:39:11 字數 1017 閱讀 9966

通過get請求獲取返回的網頁,其中加入了user-agent資訊,不然會丟擲"http error 403: forbidden"異常,

因為有些**為了防止這種沒有user-agent資訊的訪問,會驗證請求資訊中的useragent(它的資訊包括硬體平台、系統軟體、應用軟體和使用者個人偏好),如果useragent存在異常或者是不存在,那麼這次請求將會被拒絕。

#coding=utf-8

import urllib2

import re

#使用python2.7

headers =

# headers =

request = urllib2.request(url,headers=headers)

try:

html = urllib2.urlopen(request).read() #get請求

except urllib2.urlerror as e:

html = none

if num_retries > 0:

if hasattr(e,'code') and 500 <= e.code < 600:

return gethtml(url,num_retries-1)

return html

if __name__ == '__main__':

html = gethtml("")

print html

print "結束"

Python爬蟲獲取網頁編碼格式

網頁編碼格式是每個網頁規定的本頁面文字的編碼方式,其中比較流行的是ascii,gbk,utf 8,iso等。觀察許多網頁的編碼格式都是在meta標籤的content屬性中定義的。基於以上特點本文提供獲取編碼格式的方法。如下 注 本人使用的是idle python 3.7 64 bit,裝載bs4庫 ...

簡單Python爬蟲獲取指定網頁內容示例

剛開始參考了一篇文章 python獲取網頁指定內容 beautifulsoup工具的使用方法 自己嘗試後,發現出現錯誤 urllib.error.httperror http error 418,查詢後發現是 某些網頁有反爬蟲的機制。解決方法參考 python爬蟲的urllib.error.http...

Python 網頁爬蟲初試

find find all find name attrs recursive string kwargs find all name attrs recursive string kwargs name 引數可以查詢所有名字為 name 的tag,字串物件會被自動忽略掉.keyword 引數 如果...