爬蟲 Requests庫基礎知識

2021-10-23 13:27:20 字數 1644 閱讀 2440

4.requests庫的異常

5.爬蟲通用**框架

6.url格式

方法說明

requests.get()

獲取html網頁

requests.head()

獲取html網頁頭資訊

requests.post()

向html網頁提交post請求

requests.put()

向html網頁提交put請求

requests.patch()

向html網頁提交區域性修改請求

requests.delete()

向html網頁提交刪除請求

import requests

r = requests.get("")

屬性

說明r.status_code

http請求返回的狀態,200表示成功。

r.text

http響應內容的字串形式

r.encoding

從http header猜測出的編碼方式

從http響應內容中分析出編碼方式

r.content

http響應內容的二進位制形式

異常說明

requests.connectionerror

網路連線錯誤異常

http錯誤異常

requests.urlrequired

url缺失異常

requests.toomanyredirects

超過最大重定向次數

requests.connecttimeout

連線遠端伺服器超時

requests.timeout

請求url超時

response的異常異常

說明r.raise_for_status()

如果狀態碼不是200,返回requests.httperror

import requests

defgethtmltext

(url)

:try

: r = requests.get(url, timeout =30)

r.raise_for_status(

) return r.text

except

:return

"產生異常"

if __name__ ==

"__main__"

: url =

""print

(gethtmltext(url)

)

http://host[:port][path]host: 合法的internet主機網域名稱或ip位址

port: 埠號,預設80

path請求資源的路徑

爬蟲基礎知識及requests常用方法總結

一 瀏覽器disable cache 和 preserve log的作用.二 複製url亂碼情況 from urllib.parse import urlencode.三 requests請求 res resquests.get url print res 得到的是物件 print res.text...

爬蟲基礎知識

大資料時代,要進行資料分析,首先要有資料來源。而學習爬蟲,可以讓我們獲取更多的資料來源,並且這些資料來源可以按我們的目的進行採集,去掉很多無關資料。網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。只要是瀏覽器能做的事...

爬蟲基礎之Requests庫入門

import requests r requests.get r.status code r.encoding utf 8 r.text方法 說明requests.request 構造乙個請求,支援以下各方法的基礎方法 requests.get 獲取html網頁的主要方法,對應http的get re...