python爬蟲header 爬蟲之header

有些**不會同意程式直接用上面的方式進行訪問，如果識別有問題，那麼站點根本不會響應，所以為了完全模擬瀏覽器的工作，我們需要設定一些headers 的屬性。

首先，開啟我們的瀏覽器，除錯瀏覽器f12，我用的是chrome，開啟網路監聽，示意如下，比如知乎，點登入之後，我們會發現登陸之後介面都變化了，出現乙個新的介面，實質上這個頁面包含了許許多多的內容，這些內容也不是一次性就載入完成的，實質上是執行了好多次請求，一般是首先請求html檔案，然後載入js，css 等等，經過多次請求之後，網頁的骨架和肌肉全了，整個網頁的效果也就出來了。

拆分這些請求，我們只看一第乙個請求，你可以看到，有個request url，還有headers，下面便是response，顯示得不全，小夥伴們可以親身實驗一下。那麼這個頭中包含了許許多多是資訊，有檔案編碼啦，壓縮方式啦，請求的agent啦等等。

其中，agent就是請求的身份，如果沒有寫入請求身份，那麼伺服器不一定會響應，所以可以在headers中設定agent,例如下面的例子，這個例子只是說明了怎樣設定的headers，小夥伴們看一下設定格式就好。

import urllib

import urllib2

url = ''

user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)'

values =

headers =

data = urllib.urlencode(values)

request = urllib2.request(url, data, headers)

response = urllib2.urlopen(request)

page = response.read()

這樣，我們設定了乙個headers，在構建request時傳入，在請求時，就加入了headers傳送，伺服器若識別了是瀏覽器發來的請求，就會得到響應。

另外，我們還有對付」反盜鏈」的方式，對付防盜煉，伺服器會識別headers中的referer是不是它自己，如果不是，有的伺服器不會響應，所以我們還可以在headers中加入referer

例如我們可以構建下面的headers

headers =

python爬蟲header 爬蟲之header

python爬蟲反爬爬蟲怎麼測試反爬？

python爬蟲自定義header頭部

Python 爬蟲爬取網頁

python爬蟲header 爬蟲之header

python爬蟲反爬 爬蟲怎麼測試反爬？

python爬蟲自定義header頭部

Python 爬蟲爬取網頁

相關推薦

python爬蟲反爬爬蟲怎麼測試反爬？