第十章 登入與驗證碼處理

2021-08-10 23:48:05 字數 370 閱讀 9928

在客戶端(瀏覽器)向伺服器提交http請求的時候,兩種最常見用到的方法是get和post。使用get方法的時候,查詢字串(名稱/值對)是在get請求的url中傳送的:url長度有限制,而且資料會清楚出現在url中。

按照規定,get請求只應用於獲取資料,因此前面介紹的都是使用requests庫的get方法爬取

相對於get請求,post只應用於提交資料。因為查詢字串(名稱/值對)在post請求的http訊息體中,所以敏感資料不會出現在url中,多數也不會被儲存在瀏覽器歷史或web伺服器日誌中

10.1.1處理登入表單

處理登入表單可以分為兩步:

(1)研究**登入表單,構造post請求的引數字典。

(2)提交post請求

第十章 模擬登入

很多情況下,頁面的某些資訊需要登入才可以檢視。對於爬蟲來說,需要爬取的資訊如果需要登入才可以看到的話,那麼我們就需要做一些模擬登入的事情。在前面我們了解了會話和 cookies 的用法。簡單來說,開啟網頁然後模擬登入,這實際上是在客戶端生成了 cookies,而 cookies 裡面儲存了 sess...

第十章 異常處理

異常即是乙個事件,該事件會在程式執行過程中發生,影響了程式的正常執行。一般情況下,在python無法正常處理程式時就會發生乙個異常。異常是python物件,表示乙個錯誤。當python指令碼發生異常時我們需要捕獲處理它,否則程式會終止執行。捕捉異常可以使用try except語句。try excep...

第十章 異常處理下

try finally 語句無論是否發生異常都將執行最後的 以下例題中 finally 語句無論異常是否發生都會執行 例題 try runoob except assertionerror as error print error else try with open file.log as fil...