python爬蟲系列 requests庫

前一篇文章中，我們學習了怎麼檢視儲存在網頁中的資訊，但要怎麼把這些資訊從網上抓取下來呢？接下來我們就來解決這個問題。讓我們一起走進requests。

requests是用python語言基於urllib編寫的，採用的是apache2 licensed開源協議的http庫，requests它會比urllib更加方便，requests 是以pep 20的箴言為中心開發的

beautiful is better than ugly.(美麗優於醜陋)

explicit is better than implicit.(直白優於含蓄)

****** is better than complex.(簡單優於複雜)

complex is better than complicated.(複雜優於繁瑣)

readability counts.(可讀性很重要)

對於 requests 所有的貢獻都應牢記這些重要的準則。

requests 的安裝有兩種方式

第一種：pip 安裝

開啟cmd，輸入下列命令

pip install requests

第二種，whl 檔案安裝

pip install 'whl檔案路徑'

推薦使用第一種安裝方式。

在使用requests時候，第一步要做的就是在檔案的頭部到匯入requests庫

import requests

r = requests.get("")

這樣我們就輕易的獲得了網頁的源**。接下來我們可以通過狀態碼來看下是否成功了

print(r.status_code)

可以看到返回的是

那麼我們就成功的獲取了網頁的源**

那怎麼檢視獲取到的源**呢？輸入下面的命令就可以了

print(r.text)

import requests
r = requests.get("")
print(r.status_code) //列印狀態碼
if(r.status_code == 200):
print(len(r.text)) //列印長度
print(r.text) //將網頁列印出來

requests 還有其他功能，現階段相對於get 功能來說，用的不是很多，等到後面需要用到的時候再進行詳細介紹，這裡製作簡單介紹。

Python爬蟲模擬瀏覽器訪問 Requests

有時候爬蟲需要加入請求頭來偽裝成瀏覽器,以便更好的抓取資料.開啟瀏覽器chrome找到user agent進行複製 headers headers get方法新增請求頭 print res.text 執行結果 requests庫不僅有get 方法,還有post 等方法.post 方法用於提交表單來爬...

Python爬蟲系列

部落格 python,爬蟲由於近來學 lan 業 ai 繁 fa 忙 zuo 快乙個月沒有更新部落格了。這周完成了兩門課的結課考試，現下時間開始變得充裕。準備梳理一下前段時間學習的關於python爬蟲的內容，權當複習鞏固知識。而初次學習時遇到的疑難雜症，那時候的應對策略是抓大放下，在這梳理過程會下...

Python爬蟲系列開端

網路爬蟲，顧名思義，是從網路上爬取特定資訊的工具。開發環境乙個完整的爬蟲，一般包含以下四部分或其中幾個部分主函式spiderurl管理器url manger網頁解析器html parser內容輸出器outputerbeautifulsoup 解析網頁 requests 或 urllib2 獲取網...

python爬蟲系列 requests庫

Python爬蟲 模擬瀏覽器訪問 Requests

Python爬蟲系列

Python爬蟲系列 開端

相關推薦

Python爬蟲模擬瀏覽器訪問 Requests

Python爬蟲系列開端