referer與user agent的應用

最近寫了個簡單的程式，從搜尋引擎搜尋的資料中爬取內容。

在訪問其它幾個搜尋引擎（bing，有道等），發現直接使用url建立連線會返回403拒絕。但用瀏覽器請求卻可以訪問。。於是猜測是伺服器端對user-agent進行了檢查。。增加了偽裝user-agent後，果然可以成功獲取到了

connection.setrequestproperty("user-agent", "mozilla/4.0 (compatible; msie 6.0; windows 2000)");

但在用於google的時候，發現獲取不到google的搜尋內容。用httpwatch觀察了請求。發現google並不是直接response中返回結果的。。而是先返回response，則使用js進行獲取搜尋結果內容。。根據這個順序猜測可能是referer做過限制。於是增加偽裝referer，可以成功獲取結果了

method.setrequestheader("referer ",");

經過上面的使用，在平時**開發中，可以是用user-agent和referer進行處理

1、使用user-agent進行識別是否是使用者操作，防止機器重複操作。當然還需要增加一些統計、頻率的判斷，否則很容易進行模擬

2、使用referer進行防盜煉處理

referer與user agent的應用

請求首部 Referer

Scrapy增加隨機請求頭user agent

初識http之referer欄位

referer與user agent的應用

請求首部 Referer

Scrapy增加隨機請求頭user agent

初識http之referer欄位

相關推薦