python爬蟲學習筆記之requests庫

通用**框架

r = requests.get(url)

r 表示response物件，包含爬蟲返回的內容。屬性

說明r.status_code

http請求的返回狀態，200表示連線成功，404表示失敗 r.texthttp

r.encoding

從http header中猜測的響應內容編碼方式

從內容中分析出的響應內容編碼方式（備選編碼方式） r.contenthttp

.get(url) 表示request物件，構造乙個向伺服器請求資源的request。

方法說明

requests.request()

構造乙個請求，支撐以下各方法的基礎方法

requests.get()

獲取html網頁的主要方法，對應於http的get

requests.head()

獲取html網頁頭資訊的方法，對應於http的head

requests.post()

向html網頁提交post請求的方法，對應於http的post

requests.put()

向html網頁提交put請求的方法，對應於http的put

requests.patch()

向html網頁提交區域性修改請求，對應於http的patch

requests.delete()

向html頁面提交刪除請求，對應於http的delete

各控制訪問引數的使用(均為可選項)
--params--字典或位元組序列，作為引數增加到url中
>>> kv= 
>>> r=requests.request('get','',params=kv) 
>>> print(r.url) 
--data--字典、位元組序列或檔案物件，作為request的內容
>>> kv= 
>>> r=requests.request('post','',data=kv) 
>>> body='主體內容' 
>>> r=requests.request('post','',data=body)
--json--json格式的資料，作為request的內容
>>> kv= 
>>> r=requests.request('post','',json=kv)
--headers--字典，http定製頭
>>> hd= 
>>> r=requests.request('post','',headers=hd)
--file--字典型別，傳輸檔案
>>> fs= 
>>> r=requests.request('post','',files=fs)
--timeout--設定超時時間，秒為單位
>>> r=requests.request('get','',timeout=10)
--proxies--字典型別，設定訪問**伺服器，可以增加登入認證
>>> pxs= 
>>> r=requests.request('get','',proxies=pxs)

.get其實也是.request的封裝實際為.request(『get』,url,params=none,**kwargs)

>>> r=requests.get('') 
>>> print(r.status_code)
>>> r.text

>>> r=requests.head('') 
>>> r.headers

>>> payload= 
>>> r=requests.post('', data= payload) 
>>> print(r.text)

>>> payload= 
>>> r=requests.put('',data= payload) 
>>> print(r.text)

import requests
def gethtmltext(url)
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
return r.rext
except:
return "產生異常"

整理自 python網路爬蟲與資訊提取-嵩天

Python爬蟲筆記之re查詢

記錄利用re查詢元素的常用方法。a z a z 由字母組成 0 9 由數字組成 d 整數 u4e00 u9fa 中文字元 25 0 5 2 0 4 d 1 d 1 9 d 0 255，由大到小分段 re.search pattern,string,flags 0 返回第乙個查詢結果 match物件 ...

python爬蟲之re模組

傳送門python爬蟲之正規表示式 match 從開始的位置進行匹配。如果開始的位置沒有匹配到。就直接失敗了。text hello ret re.match h text print ret.group 在字串中找到第乙個滿足條件的。text hello ret re.search e text p...

Python學習筆記之爬蟲

爬蟲排程端啟動爬蟲，停止爬蟲，監視爬蟲運況網頁解析器 beautiful soup 語法例如以下對應的 1 建立beautifulsoap物件 2 搜尋節點 find all,find 3 訪問節點資訊文件字串，解析器，指定編碼utf 8 print 獲取所有的連線 links soup...

python爬蟲學習筆記之requests庫

Python爬蟲筆記之re查詢

python爬蟲之re模組

Python學習筆記之爬蟲

相關推薦