Python爬蟲 HTTP協議 Requests庫

2021-09-07 12:21:29 字數 875 閱讀 3965

http協議:

http(hypertext transfer protocol):即超文字傳輸協議。url是通過http協議訪問資源的internet路徑,乙個url對應乙個資料資源。

http協議對資源的操作:

requests庫提供了http所有的基本請求方式。官方介紹:

requests庫的6個主要方法:

requests庫的異常:

requests庫的兩個重要物件:request(請求)、response(相應)。request物件支援多種請求方法;response物件包含伺服器返回的所有資訊,也包含請求的request資訊。

response物件的屬性:

其中,r.encoding指:如果header中不存在charset,則認為編碼為iso‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等於200。

http協議與requests庫對比:

爬取網頁的通用**框架:

例如,獲取pmcaff首頁的資訊:

'     print(gethtmltext(url))

巨弘娛樂 juhongyulept.com

新貝娛樂 xinbeiyule.cn

吉美娛樂 jimeiyulept.com

無極娛樂 wujiyule88.cn

七彩娛樂 qicaiyulept.cn

python爬蟲基礎 http協議

http協議 1.1headers是請求頭 request headers是傳送過去的請求,裡面包含了完整的http請求資料,在之後我們爬取 頁面時會用到。get是獲取方式 host是遠端主機位址 connection客戶端希望的聯機方式 accept是客戶端能接受的 型別 user agent標示...

Python 爬蟲教程 2 HTTP協議

http是一種應用層協議,是一種在網路中進行資料傳輸時,收發雙方提前達成的某些共同約定,http 協議涵蓋的內容極廣,而這裡我們主要關注 http 在報文格式上的約定。首先會對如何對 http 中資源進行定位,然後介紹下 http 報文結構,接下來介紹下 http 的請求和響應,最後給出乙個示例。u...

爬蟲入門 (一)HTTP協議

1 request method 請求方式,如get post put delete head 只返回response物件的res headers 2 request url 請求url,請求的統一資源定位符,訪問網頁時第一次請求是document請求,然後是解析其中的url,然後發起script ...