python 爬蟲之requests筆記

2021-09-28 18:10:59 字數 2281 閱讀 4763

準備工作

安裝好pycharm,requests庫

requests 爬蟲程式(模板)

import requests

defgethtmttext

(url)

:try

: r=requests.get(url,timeout=30)

r.raise_for_status(

)#如果狀態不是200,引發httperror異常

r.encoding=r.raise_for_status(

)return r.text

except

:return

"產生異常"

if __name__==

"__main__"

: url=

""print

(gethtmttext(url)

)#列印url頁面內容

在開始寫爬蟲時,一定要注意響應狀態,如果返回404,我們能及時作出修改。

理解requests庫的異常

requests.connectionerror:網路連線錯誤異常,如dns查詢失敗、拒絕連線等。

requests.httperror:http錯誤異常。

requests.urlrequired:url缺失異常。

requests.toomanyredirects:超過最大重定向次數,產生重定向異常。

requests.connecttimeout連線遠端伺服器超時異常。:

requests.timeout:請求url超時,產生超時異常。

requests 庫的7個主要方法

requests.request():構造乙個請求,支撐以下各方法的基礎方法。

requests.get():獲取html網頁的主要方法,對應於http的get。

requests.head():獲取html王玉婷頭資訊的方法,對應於http的head。

request.post():向html網頁提交post請求的方法,對應於http的post。

requests.put():向html網頁提交put請求的方法,對應於http的put。

requests.patch():向html網頁提交區域性修改請求,對應於http的patch。

requests.delete():向html頁面提交刪除請求,對應於http的delete。

http協議

http,超文字傳輸協議。

http是乙個基於「請求與響應」模式的、無狀態的應用層協議http協議採用url作為定位網路資源的標識,url的格式如下:

host:合法的internet主機網域名稱或ip位址

port:埠號,預設埠為80

path:請求資源的路徑

http協議對資源的操作

get:請求獲取url位置的資源。

head:請求獲取url位置資源的響應訊息報告,即獲得資源的頭部資訊。

post:請求向url位置的資源後附加新的資料。

put:請求向url位置儲存乙個資源,覆蓋原url位置的資源。

patch:請求區域性更新url位置的資源,即改變該處資源的部分內容。

delete:請求刪除url位置儲存的資源。

requests.request(method,url,**kwatgs)

method:請求方式

r=requests.request(

'get'

,url,

**kwargs)

r=requests.request(

'head'

,url,

**kwargs)

r=requests.request(

'post'

,url,

**kwargs)

r=requests.request(

'pur'

,url,

**kwargs)

r=requests.request(

'patch'

,url,

**kwargs)

r=requests.request(

'delete'

,url,

**kwargs)

r=requests.request(

'options'

,url,

**kwargs)

**kwargs:控制訪問的引數,均為可選項

Python爬蟲 HTTP協議 Requests庫

http協議 http hypertext transfer protocol 即超文字傳輸協議。url是通過http協議訪問資源的internet路徑,乙個url對應乙個資料資源。http協議對資源的操作 requests庫提供了http所有的基本請求方式。官方介紹 requests庫的6個主要方...

python 爬蟲系列02 認識 requests

本系列所有文章基於 python3.5.2 requests 是基於 urllib 的三方模組,相比於 uillib,操作更簡潔,功能更強大,而且支援 python3 getimport requests r requests.get url print r.status code print r....

python小白學習記錄 爬蟲requests篇

一 引用庫 import requests 二 請求訪問url,網頁相應 res requests.get 網頁位址 三 表明返回內容 目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...