爬蟲 Requests庫基礎知識

4.requests庫的異常

5.爬蟲通用**框架

6.url格式

方法說明

requests.get()

獲取html網頁

requests.head()

獲取html網頁頭資訊

requests.post()

向html網頁提交post請求

requests.put()

向html網頁提交put請求

requests.patch()

向html網頁提交區域性修改請求

requests.delete()

向html網頁提交刪除請求

import requests
r = requests.get("")

屬性

說明r.status_code

http請求返回的狀態，200表示成功。

r.text

http響應內容的字串形式

r.encoding

從http header猜測出的編碼方式

從http響應內容中分析出編碼方式

r.content

http響應內容的二進位制形式

異常說明

requests.connectionerror

網路連線錯誤異常

http錯誤異常

requests.urlrequired

url缺失異常

requests.toomanyredirects

超過最大重定向次數

requests.connecttimeout

連線遠端伺服器超時

requests.timeout

請求url超時

response的異常異常

說明r.raise_for_status()

如果狀態碼不是200，返回requests.httperror

import requests
defgethtmltext
(url)
:try
: r = requests.get(url, timeout =30)
r.raise_for_status(
) return r.text
except
:return
"產生異常"
if __name__ ==
"__main__"
: url =
""print
(gethtmltext(url)
)

http://host[:port][path]host: 合法的internet主機網域名稱或ip位址

port: 埠號，預設80

path請求資源的路徑

爬蟲基礎知識及requests常用方法總結

一瀏覽器disable cache 和 preserve log的作用.二複製url亂碼情況 from urllib.parse import urlencode.三 requests請求 res resquests.get url print res 得到的是物件 print res.text...

爬蟲基礎知識

大資料時代，要進行資料分析，首先要有資料來源。而學習爬蟲，可以讓我們獲取更多的資料來源，並且這些資料來源可以按我們的目的進行採集，去掉很多無關資料。網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。只要是瀏覽器能做的事...

爬蟲基礎之Requests庫入門

import requests r requests.get r.status code r.encoding utf 8 r.text方法說明requests.request 構造乙個請求，支援以下各方法的基礎方法 requests.get 獲取html網頁的主要方法，對應http的get re...

爬蟲 Requests庫基礎知識

爬蟲基礎知識及requests常用方法總結

爬蟲基礎知識

爬蟲基礎之Requests庫入門

相關推薦