Python爬蟲 HTTP協議 Requests庫

http協議：

http（hypertext transfer protocol）：即超文字傳輸協議。url是通過http協議訪問資源的internet路徑，乙個url對應乙個資料資源。

http協議對資源的操作：

requests庫提供了http所有的基本請求方式。官方介紹：

requests庫的6個主要方法：

requests庫的異常：

requests庫的兩個重要物件：request（請求）、response（相應）。request物件支援多種請求方法；response物件包含伺服器返回的所有資訊，也包含請求的request資訊。

response物件的屬性：

其中，r.encoding指：如果header中不存在charset，則認為編碼為iso‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等於200。

http協議與requests庫對比：

爬取網頁的通用**框架：

例如，獲取pmcaff首頁的資訊：

'     print(gethtmltext(url))

（

巨弘娛樂 juhongyulept.com

新貝娛樂 xinbeiyule.cn

吉美娛樂 jimeiyulept.com

無極娛樂 wujiyule88.cn

七彩娛樂 qicaiyulept.cn

python爬蟲基礎 http協議

http協議 1.1headers是請求頭 request headers是傳送過去的請求，裡面包含了完整的http請求資料，在之後我們爬取頁面時會用到。get是獲取方式 host是遠端主機位址 connection客戶端希望的聯機方式 accept是客戶端能接受的型別 user agent標示...

Python 爬蟲教程 2 HTTP協議

http是一種應用層協議，是一種在網路中進行資料傳輸時，收發雙方提前達成的某些共同約定，http 協議涵蓋的內容極廣，而這裡我們主要關注 http 在報文格式上的約定。首先會對如何對 http 中資源進行定位，然後介紹下 http 報文結構，接下來介紹下 http 的請求和響應，最後給出乙個示例。u...

爬蟲入門（一）HTTP協議

1 request method 請求方式，如get post put delete head 只返回response物件的res headers 2 request url 請求url，請求的統一資源定位符，訪問網頁時第一次請求是document請求，然後是解析其中的url，然後發起script ...

Python爬蟲 HTTP協議 Requests庫

python爬蟲基礎 http協議

Python 爬蟲教程 2 HTTP協議

爬蟲入門 （一）HTTP協議

相關推薦

爬蟲入門（一）HTTP協議