python 爬蟲之requests筆記

準備工作

安裝好pycharm，requests庫

requests 爬蟲程式（模板）

import requests
defgethtmttext
(url)
:try
: r=requests.get(url,timeout=30)
r.raise_for_status(
)#如果狀態不是200，引發httperror異常
r.encoding=r.raise_for_status(
)return r.text
except
:return
"產生異常"
if __name__==
"__main__"
: url=
""print
(gethtmttext(url)
)#列印url頁面內容

在開始寫爬蟲時，一定要注意響應狀態，如果返回404，我們能及時作出修改。

理解requests庫的異常

requests.connectionerror:網路連線錯誤異常，如dns查詢失敗、拒絕連線等。

requests.httperror:http錯誤異常。

requests.urlrequired:url缺失異常。

requests.toomanyredirects:超過最大重定向次數，產生重定向異常。

requests.connecttimeout連線遠端伺服器超時異常。:

requests.timeout:請求url超時，產生超時異常。

requests 庫的7個主要方法

requests.request():構造乙個請求，支撐以下各方法的基礎方法。

requests.get():獲取html網頁的主要方法，對應於http的get。

requests.head():獲取html王玉婷頭資訊的方法，對應於http的head。

request.post():向html網頁提交post請求的方法，對應於http的post。

requests.put():向html網頁提交put請求的方法，對應於http的put。

requests.patch():向html網頁提交區域性修改請求，對應於http的patch。

requests.delete():向html頁面提交刪除請求，對應於http的delete。

http協議

http,超文字傳輸協議。

http是乙個基於「請求與響應」模式的、無狀態的應用層協議http協議採用url作為定位網路資源的標識，url的格式如下：

host:合法的internet主機網域名稱或ip位址

port:埠號，預設埠為80

path:請求資源的路徑

http協議對資源的操作

get：請求獲取url位置的資源。

head：請求獲取url位置資源的響應訊息報告，即獲得資源的頭部資訊。

post：請求向url位置的資源後附加新的資料。

put：請求向url位置儲存乙個資源，覆蓋原url位置的資源。

patch：請求區域性更新url位置的資源，即改變該處資源的部分內容。

delete：請求刪除url位置儲存的資源。

requests.request(method,url,**kwatgs)

method:請求方式

r=requests.request(
'get'
,url,
**kwargs)
r=requests.request(
'head'
,url,
**kwargs)
r=requests.request(
'post'
,url,
**kwargs)
r=requests.request(
'pur'
,url,
**kwargs)
r=requests.request(
'patch'
,url,
**kwargs)
r=requests.request(
'delete'
,url,
**kwargs)
r=requests.request(
'options'
,url,
**kwargs)

**kwargs：控制訪問的引數，均為可選項

Python爬蟲 HTTP協議 Requests庫

http協議 http hypertext transfer protocol 即超文字傳輸協議。url是通過http協議訪問資源的internet路徑，乙個url對應乙個資料資源。http協議對資源的操作 requests庫提供了http所有的基本請求方式。官方介紹 requests庫的6個主要方...

python 爬蟲系列02 認識 requests

本系列所有文章基於 python3.5.2 requests 是基於 urllib 的三方模組,相比於 uillib,操作更簡潔,功能更強大,而且支援 python3 getimport requests r requests.get url print r.status code print r....

python小白學習記錄爬蟲requests篇

一引用庫 import requests 二請求訪問url，網頁相應 res requests.get 網頁位址三表明返回內容目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...

python 爬蟲之requests筆記

Python爬蟲 HTTP協議 Requests庫

python 爬蟲系列02 認識 requests

python小白學習記錄 爬蟲requests篇

相關推薦

python小白學習記錄爬蟲requests篇