簡單的爬蟲入門,requests庫

2021-09-29 08:56:05 字數 1235 閱讀 6493

網路爬蟲,可以認為是

①模擬瀏覽器自動瀏覽網頁(99%都是)

②一段程式,乙個指令碼

③自動批量採集我們需要的各種資源(、文字)

主要方法

requests.request() : 構造乙個請求,支撐一下各方法的基礎方法

requests.get() : 獲取html網頁的主要方法,對應於http中的get

requests.head() : 獲取html網頁頭資訊的方法,對應於http的head

requests.post() : 向html網頁提交post請求的方法,對應於http的post

requests.put() : 像html網頁提交put請求的方法,對應於http的put

requests.patch() : 向html網頁提交區域性修改請求,對應於http的patch

requests.delete() : 向html網頁提交刪除請求,對應於http的delete

get函式requests庫的異常

requests.connectionerror : 網路連線錯誤異常,如dns查詢失敗、拒絕連線

requests.httperror : http錯誤異常

requests.urlrequired : url缺失異常

requests.toomanyredirects : 超過最大重定向次數,產生重定向異常

requests.connecttime out : 連線遠端伺服器超時異常

requests.timeout : 請求url超時,產生超時異常

爬取網頁的通用**框架:

import requests

defgethtmltext

(url)

:try

: r=requests.get(url,timeout=30)

r.raise_for_status(

)#如果狀態不是200,引發httperror異常

return r.text

except

:return

"產生異常"

if __name__==

"__main__"

: url=

""print

(gethtmltext(url)

)#網路連線有風險,異常處理很重要

爬蟲 Requests 使用入門

linuxalias命令用於設定指令的別名。home目錄中 bashrc 這個檔案主要儲存個人的一些個性化設定,如命令別名 路徑等。注意 1,寫絕對路徑 2,有空格 改好後使用source bashrc 使用檔案生效 assert response.status code 200 assert re...

爬蟲入門 Requests庫

首先用管理員許可權開啟cmd命令列,然後直接輸入 pip install requests,即可安裝成功 需要聯網 方法 作用requests.request 構造乙個請求,它是支撐以下方法的基礎方法 requests.get 獲取html網頁的主要方法,請求獲取url位置的資源 requests....

爬蟲 Requests 庫的入門學習

此為北理嵩天老師mooc課程 網路爬蟲與資訊提取 的課程學習筆記,附帶一些其他書籍部落格的資料。使用命令列輸入 pip install requests或者 python m pip install requests方法名稱 說明requests.request 最基礎的,構造請求,支撐其他方法的使...