python爬蟲學習筆記之requests庫

2021-10-01 12:51:40 字數 2240 閱讀 7431

通用**框架

r = requests.get(url)

r 表示response物件,包含爬蟲返回的內容。 屬性

說明r.status_code

http請求的返回狀態,200表示連線成功,404表示失敗 r.texthttp

r.encoding

從http header中猜測的響應內容編碼方式

從內容中分析出的響應內容編碼方式(備選編碼方式) r.contenthttp

.get(url) 表示request物件,構造乙個向伺服器請求資源的request。

方法說明

requests.request()

構造乙個請求,支撐以下各方法的基礎方法

requests.get()

獲取html網頁的主要方法,對應於http的get

requests.head()

獲取html網頁頭資訊的方法,對應於http的head

requests.post()

向html網頁提交post請求的方法,對應於http的post

requests.put()

向html網頁提交put請求的方法,對應於http的put

requests.patch()

向html網頁提交區域性修改請求,對應於http的patch

requests.delete()

向html頁面提交刪除請求,對應於http的delete

各控制訪問引數的使用(均為可選項)

--params--字典或位元組序列,作為引數增加到url中

>>> kv=

>>> r=requests.request('get','',params=kv)

>>> print(r.url)

--data--字典、位元組序列或檔案物件,作為request的內容

>>> kv=

>>> r=requests.request('post','',data=kv)

>>> body='主體內容'

>>> r=requests.request('post','',data=body)

--json--json格式的資料,作為request的內容

>>> kv=

>>> r=requests.request('post','',json=kv)

--headers--字典,http定製頭

>>> hd=

>>> r=requests.request('post','',headers=hd)

--file--字典型別,傳輸檔案

>>> fs=

>>> r=requests.request('post','',files=fs)

--timeout--設定超時時間,秒為單位

>>> r=requests.request('get','',timeout=10)

--proxies--字典型別,設定訪問**伺服器,可以增加登入認證

>>> pxs=

>>> r=requests.request('get','',proxies=pxs)

.get其實也是.request的封裝 實際為.request(『get』,url,params=none,**kwargs)

>>> r=requests.get('') 

>>> print(r.status_code)

>>> r.text

>>> r=requests.head('') 

>>> r.headers

>>> payload= 

>>> r=requests.post('', data= payload)

>>> print(r.text)

>>> payload= 

>>> r=requests.put('',data= payload)

>>> print(r.text)

import requests

def gethtmltext(url)

try:

r = requests.get(url, timeout=30)

r.raise_for_status()

return r.rext

except:

return "產生異常"

整理自 python網路爬蟲與資訊提取-嵩天

Python爬蟲筆記之re查詢

記錄利用re查詢元素的常用方法。a z a z 由字母組成 0 9 由數字組成 d 整數 u4e00 u9fa 中文字元 25 0 5 2 0 4 d 1 d 1 9 d 0 255,由大到小分段 re.search pattern,string,flags 0 返回第乙個查詢結果 match物件 ...

python爬蟲之re模組

傳送門python爬蟲之正規表示式 match 從開始的位置進行匹配。如果開始的位置沒有匹配到。就直接失敗了。text hello ret re.match h text print ret.group 在字串中找到第乙個滿足條件的。text hello ret re.search e text p...

Python學習筆記之爬蟲

爬蟲排程端 啟動爬蟲,停止爬蟲,監視爬蟲運 況 網頁解析器 beautiful soup 語法 例如以下 對應的 1 建立beautifulsoap物件 2 搜尋節點 find all,find 3 訪問節點資訊 文件字串,解析器,指定編碼utf 8 print 獲取所有的連線 links soup...