python爬蟲系列 requests庫

2021-09-02 14:12:36 字數 1612 閱讀 7921

前一篇文章中,我們學習了怎麼檢視儲存在網頁中的資訊,但要怎麼把這些資訊從網上抓取下來呢?接下來我們就來解決這個問題。讓我們一起走進requests。

requests是用python語言基於urllib編寫的,採用的是apache2 licensed開源協議的http庫,requests它會比urllib更加方便,requests 是以pep 20的箴言為中心開發的

beautiful is better than ugly.(美麗優於醜陋)

explicit is better than implicit.(直白優於含蓄)

****** is better than complex.(簡單優於複雜)

complex is better than complicated.(複雜優於繁瑣)

readability counts.(可讀性很重要)

對於 requests 所有的貢獻都應牢記這些重要的準則。

requests 的安裝有兩種方式

第一種:pip 安裝

開啟cmd,輸入下列命令

pip install requests
第二種,whl 檔案安裝

pip install 'whl檔案路徑'
推薦使用第一種安裝方式。

在使用requests時候,第一步要做的就是在檔案的頭部到匯入requests庫

import requests
r = requests.get("")
這樣我們就輕易的獲得了網頁的源**。接下來我們可以通過狀態碼來看下是否成功了

print(r.status_code)
可以看到返回的是

200
那麼我們就成功的獲取了網頁的源**

那怎麼檢視獲取到的源**呢?輸入下面的命令就可以了

print(r.text)
import requests

r = requests.get("")

print(r.status_code) //列印狀態碼

if(r.status_code == 200):

print(len(r.text)) //列印長度

print(r.text) //將網頁列印出來

requests 還有其他功能,現階段相對於get 功能來說,用的不是很多,等到後面需要用到的時候再進行詳細介紹,這裡製作簡單介紹。

Python爬蟲 模擬瀏覽器訪問 Requests

有時候爬蟲需要加入請求頭來偽裝成瀏覽器,以便更好的抓取資料.開啟瀏覽器chrome找到user agent進行複製 headers headers get方法新增請求頭 print res.text 執行結果 requests庫不僅有get 方法,還有post 等方法.post 方法用於提交表單來爬...

Python爬蟲系列

部落格 python,爬蟲 由於近來學 lan 業 ai 繁 fa 忙 zuo 快乙個月沒有更新部落格了。這周完成了兩門課的結課考試,現下時間開始變得充裕。準備梳理一下前段時間學習的關於python爬蟲的內容,權當複習鞏固知識。而初次學習時遇到的疑難雜症,那時候的應對策略是抓大放下,在這梳理過程會下...

Python爬蟲系列 開端

網路爬蟲,顧名思義,是從網路上爬取特定資訊的工具。開發環境 乙個完整的爬蟲,一般包含以下四部分或其中幾個部分 主函式spiderurl管理器url manger網頁解析器html parser內容輸出器outputerbeautifulsoup 解析網頁 requests 或 urllib2 獲取網...