爬蟲模擬登陸之formdata表單資料

2022-09-03 23:18:17 字數 664 閱讀 6142

首先http協議是個無連線的協議,瀏覽器和伺服器之間是以迴圈往復的請求回覆來互動的,互動的形式是以檔案形式來進行的。比如在chrome開發者工具network中看到了

每一行是乙個檔案,又檔案大小啊,檔案型別啊,比如指令碼,等。

根據協議,把每個檔案的內容按照協議格式填入http資料協議結構,其中,對於爬蟲模擬登陸來說最重要的是表單資料formdata這個字段

在這我們看到又loginname欄位,又password欄位,我們看到這都是明碼,所以做了遮擋。我們得到了這個,就可以根據欄位名稱自己組裝資料了,

另外還需要注意的是,formdata所在的檔案,前面我們說了,瀏覽器與伺服器之間是以檔案形式互動的,開發者工具也是以檔案為單位來抓包的,所以我們需要找對檔案

這個只能自己找了,比如知乎,包含賬號密碼的表單資料存在與「email"檔案中,比如在智聯招聘中,包含賬號密碼的表單資料存在與「login"檔案中

爬蟲實戰之模擬登陸Github

這裡不討論用 github api 的情況,僅僅以 github 來說明模擬登陸先嘗試用真實瀏覽器登陸,登陸成功後在開發者工具的 network 選項卡中捕獲 session 檔案。可以看到,登陸所需要的資料不僅僅是 email 或使用者名稱 和密碼,還需要其它的 3 個字段,而這 3 個字段普通使...

Python 爬蟲之模擬登陸CSND

基本的指令碼語言是python,雖然不敢說是最好的語言,至少是最好的之一 0.0 用模擬登陸,我們需要用到多個模組,如下 requests beautifulsoup 安裝git clone git cd requests pip install pip pip install requests介紹...

爬蟲 cookie模擬登陸

cookie 適用於抓取需要登入才能訪問的頁面 http協議為無連線協議,cookie 存放在客戶端瀏覽器,session 存放在web伺服器 1 先登入成功1次,獲取到攜帶登陸資訊的cookie 登入成功 個人主頁 f12抓包 重新整理個人主頁 找到主頁的包 home 一般cookie都在all ...