爬蟲基礎之Requests庫入門

2021-08-21 14:21:00 字數 1924 閱讀 8464

import requests

r = requests.get("")

r.status_code

r.encoding = 'utf-8'

r.text

方法

說明requests.request()

構造乙個請求,支援以下各方法的基礎方法

requests.get()

獲取html網頁的主要方法,對應http的get

requests.head()

獲取html網頁頭資訊的方法,對應http的head

requests.post()

向html網頁提交post請求,對應http的post

requests.put()

向html網頁提交put請求,對應http的put

requests.patch()

向html網頁提交區域性修改請求,對應http的patch

requests.delete()

向html頁面提交刪除請求,對應http的delete

r = requests.get(url, params=none, **kwargs)
構造乙個向伺服器請求資源的request物件,返回乙個包含伺服器資源的response物件。

url: 擬獲取頁面的url鏈結。

params(可選引數):url中的額外引數,字典或位元組流格式。

**kwargs(可選引數):12個控制訪問的引數。

requests庫的其他6個其實都是呼叫request方法實現的。例如get方法在源**中是這樣寫的:

def get(url, params=none, **kwargs):

kwargs.setdefault('allow redirects', true)

return request('get', url, params=params, **kwargs)

屬性

說明r.status_code

http請求的返回狀態,200表示連線成功,404表示連線失敗

r.text

http響應內容的字串形式,即url對應的頁面內容

r.encoding

從http header中猜測的響應內容編碼方式

從內容中分析出的響應內容編碼方式(備選編碼方式)

r.content

http響應內容的二進位制形式

異常說明

requests.connectionerror

網路連線錯誤異常,如dns查詢失敗、拒絕連線等

http錯誤異常

requests.urlrequired

url缺失異常

requests.toomanyredirects

超過最大重定向次數,產生重定向異常

requests.connecttimeout

連線遠端伺服器超時異常

requests.timeout

請求url超時,產生超時異常

r.raise_for_status()

如果不是200,產生異常requests.httperror

# 爬取網頁的通用**框架

import requests

def gethtmltext(url):

try:

r = requests.get(url, timeout=30)

r.raise_for_status()

return r.text

except:

return "產生異常"

if __name__ == "__main__":

url = ""

print(gethtmltext(url))

爬蟲之Requests庫

處理cookie 雖然python的標準庫中urllib模組已經包含我們平常使用的大多數功能,但是它的api使用起來讓人感覺不太好,而requests使用起來更加方便 利用pip 可以非常方便安裝 pip install requests最簡單的傳送get請求的方式就是通過requests.get呼...

Python爬蟲之Requests庫

所謂爬蟲就是模擬客戶端傳送網路請求,獲取網路響應,並按照一定的規則解析獲取的資料並儲存的程式。要說 python 的爬蟲必然繞不過 requests 庫。對於 requests 庫,官方文件是這麼說的 requests 唯一的乙個非轉基因的 python http 庫,人類可以安全享用。警告 非專業...

python爬蟲之requests庫

在python爬蟲中,要想獲取url的原網頁,就要用到眾所周知的強大好用的requests庫,在2018年python文件年度總結中,requests庫使用率排行第一,接下來就開始簡單的使用requests庫吧.在window環境下,推薦是用pip進行安裝,因為便捷而且不用考慮檔案的解壓路徑 pip...