python使用urllib2抓取防爬取鏈結

2021-07-15 11:07:34 字數 1147 閱讀 3606

寫了那麼多篇找工作的文章,再寫幾篇就完了,也算是對自己一段時間的乙個總結。近來發現自己部落格上python技術點的文章有點少,為了防止自己總是遺忘,還是寫出來的好。

前幾天剛看完《linux/unix設計思想》,真是一本不錯的書,推薦想提高自己**質量的童鞋看一下,裡面經常提到要以小為美,乙個程式做好一件事,短小精悍,因此我也按照這種思想來寫python技術點的文章,每個點都是乙個函式,可以直接拿來用。

開始了一般情況下用python的童鞋是不可避免的要寫一些爬蟲程式的,因此對python中urllib和urllib2都比較熟悉。而最基本的爬取方法就是:

urllib.urlopen(url).read()

大多數**都不會禁止這樣的爬取,但是有些**都設定了禁止爬蟲爬取,當然這樣一方面是為了保護內容的版權,另一方面也是為了方式過多的爬蟲造成**流量的白白浪費。惡意爬取某一**的內容當然是不道德的行為了,這裡只討論技術。

下面的函式通過urllib2來模擬瀏覽器訪問鏈結爬取內容:

def get_url_content(url):

i_headers =

req = urllib2.request(url, headers=i_headers)

return urllib2.urlopen(req).read()

僅僅是模擬瀏覽器訪問依然是不行的,如果爬取頻率過高依然會令人懷疑,那麼就需要用到urllib2中的**設定了,如下:

要使用這個函式,當然你得找一些**伺服器了,這些資源網上有很多,關鍵字:http**

關於網頁抓取的方法其實還有其他的方法,技術是很靈活的東西,就看你怎麼用。

urllib2使用總結

urllib2庫是涉及到url資源請求的常用庫 官方文件 urllib2 extensible library for opening urls 常用函式 urllib2.urlopen url data timeout cafile capath cadefault context url 可以是...

urllib2使用總結

urllib2是python的乙個獲取urls的元件。他以urlopen函式的形式提供了乙個非常簡單的介面,具有利用不同協議獲取urls的能力,同樣提供了乙個比較複雜的介面來處理一般情況。urllib2支援獲取不同格式的urls例如 ftp gopher等,並利用它們相關網路協議進行獲取。urlli...

urllib2使用初探

在入門urllib2之前,我想應該先調研一下urllib與urllib2的區別 1 首先我們要明白的是,這兩個模組不可以相互替代.兩者都是接受url請求的模組,但是提供了不同的功能,兩個顯著的區別是 1.對於乙個url的request,urllib2.urlopen可以接受乙個request類的例項...