python爬蟲模組 urliib2的基本使用

2021-09-02 02:37:39 字數 813 閱讀 7560

urllib2是python自帶的網頁抓取模組,不需要自己安裝,該模組可以實現對網頁的抓取(附帶請求報頭)。

urllib2模組的方法介紹:

urlopen(請求位址):這個方法只能傳送url位址請求,不能自己構建請求報頭,伺服器端顯示的報頭為urllib2模組中設定的請求報頭。

原始碼:

request(請求位址):這個方法可以自己構建請求報頭,rquest方法有兩個引數。引數1是請求位址,引數2是請求報頭,也就是headers。

原始碼:請求報頭有很多,這裡只發入乙個。

add_headers():該方法時新增請求報頭,有兩個引數,分別代表請求報頭的鍵和值(該方法不常用)

原始碼:

get_header( ):該方法時獲取請求報頭,引數為想獲取的請求報頭名(該方法不常用)。

原始碼:

getcode( ):獲取請求響應狀態碼,該方法需要在請求結束後使用。

原始碼:

python爬蟲模式 python爬蟲模組理解

url管理器 用來管理要抓取的url和已抓取的url,防止重複抓取和迴圈抓取,url管理器的五個最小功能 1 新增url到容器中 2 獲取乙個url 3 判斷url是否已在容器中 4 判斷是否還有待爬取的url 5 將待爬取的url移到已爬取的url 2 新增data和http header 3 新...

python爬蟲requests模組

首先,沒有安裝的先安裝 cmd pip conda install requests 先給大家乙個模板,如果已經很熟悉了,直接忽略,不懂得就可以看看了 接下來解釋一下相應的 的意思 這個和上和上面的是一樣的,執行後輸出的 都是一樣的啦 coding utf 8 引入網路請求模組,該模組有兩個重要的物...

python爬蟲 requests模組

功能 模擬瀏覽器發請求 指定url 發起請求 獲取響應資料 持久化儲存 import requests 指定url url 發起請求,返回乙個響應對像 response requests.get url url 獲取響應資料 text返回的是字串型別的響應資料 page text response....