天蛛爬蟲學習筆記 Requests爬蟲例項

2021-10-05 07:47:55 字數 868 閱讀 5694

定義乙個爬蟲的通用框架

import requests

defgethtmltext

(url)

:"""

爬蟲通用框架,

"""try:

#捕捉到錯誤後會執行except的語句

r=requests.get(url)

r.raise_for_status(

)# 返回值若為200,則表示正常訪問**,繼續執行,否則會返回httperror錯誤

return r.text

except

:return

'產生異常'

呼叫上述的爬蟲框架

gethtmltext("")

#mozilla/5.0是乙個標準的瀏覽器身份標識字段,可以將爬蟲程式偽裝成某個瀏覽器

kv=r = requests.get(

"100012015134.html#crumb-wrap"

,headers=kv)

#將header中的user-agent修改為mozilla/5.0

#mozilla/5.0是乙個標準的瀏覽器身份標識字段,可以將爬蟲程式偽裝成某個瀏覽器

kv=r = requests.get(

"",headers=kv)

r.status_code

r.text

天蛛爬蟲學習筆記 HTTP基礎知識

1.uri url urn的關係 uri全稱為 uniform resource identifier,即統一資源標誌符,url 的全稱為 universal resource locator,即統一資源定位符,urn全稱為 universal resource name,即統一資源名稱。其中url...

python爬蟲學習筆記之requests庫

通用 框架 r requests.get url r 表示response物件,包含爬蟲返回的內容。屬性 說明r.status code http請求的返回狀態,200表示連線成功,404表示失敗 r.texthttp r.encoding 從http header中猜測的響應內容編碼方式 從內容中...

Python爬蟲之二 學習Request

這篇文章是接上篇 主要介紹另外一種請求方式。request。由於urlopen 方法引數有限,並不能滿足我們所有的需求,因此,request就應用而生啦。import urllib.request request urllib.request.request response urllib.requ...