Python 網路爬蟲 2

2021-08-20 09:28:00 字數 518 閱讀 5634

1) urlopen()方法中有乙個可選引數timeout,用於設定連線的超時時間,單位秒;

2)如何從urlopen()的返回物件中獲取http狀態碼:

resp=urllib.request.urlopen(url)

code=response.getcode()

3)在客戶端和伺服器之間進行請求-響應時,常用get,post;

4)user-agent屬性記錄的是:提供使用者所使用的瀏覽器型別,作業系統,瀏覽器核心等資訊標識;

5)urlopen()函式有乙個data引數,如果給這個引數賦值,那麼http的請求就是使用post方式,如果data值為null,也就是使用預設值,那麼http的請求就是使用get方式;

6)編碼轉換:字串的decode方法是將其它編碼的字串轉換成unicode編碼,相反,encode方法是將unicode編碼轉換成其它編碼的字串;

7)json:輕量級的資料交換格式,就是用字串把python的資料結構封裝起來,便於儲存和使用;

爬蟲 2初學Python網路爬蟲

2 網路爬蟲的限制 3 robotst協議 4 robots協議的遵守方式 web伺服器預設接收人類訪問,受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷 伺服器上的資料有產權歸屬,網路爬蟲獲取資料後牟利將帶來法律風險 網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料 從而洩...

Python網路爬蟲 二 urllib2

1.網路爬蟲的架構 2.url管理器的簡單實現 1 存放待爬取url的 set 集合.2 存放未爬取url的 set 集合.3 url管理器應該具有的方法 新增新的url,判斷新增的url是否存在,判斷是否存在待爬取的url,獲取待爬取的url,移動爬取完成的url由未爬取 set 集合至 已爬取 ...

Python網路爬蟲

找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...