穿越網頁表單與登入視窗進行爬取

2021-10-06 15:54:40 字數 1064 閱讀 4809

今天本文將見紹簡單的網頁表單與登入視窗爬取,主要說明如何進行前期的網路表單穿越與登入視窗,如有任何不足之處,望批評指正,謝謝!

測試表單**:

`import requests

params=

r=requests.post(

'',data=params)

print

(r.text)`

並非所有的表單都只是一堆文字欄位和乙個提交按鈕,有的表單會比較複雜,如擁有單選按鈕、核取方塊和下拉框等。但是無論表單有多麼複雜,仍然只需要關注兩件事:欄位名稱和字段值。欄位名稱可以通過檢視源**並尋找name屬性獲得。有些欄位會規定字段值的格式,而有些也不會,如需要確定字段值的格式可以跟蹤瀏覽器和**之間來回傳送的get和post請求。

跟蹤get請求最方便的方式就是看**的url鏈結,可以看出字段值的輸出格式;跟蹤複雜post表單時,檢查瀏覽器的源**,network中的form data,可以看見伺服器傳遞的引數。

更為詳細的檢視請求引數,chrome中在選單中通過「更多工具」——「開發者工具」(快捷鍵f12)開啟,可以檢視所有請求。

測試**:

import requests

files=

#a為開啟的檔案路徑

r=requests.post(

'',files=files)

print

(r.text)

測試**:

測試**:

import requests

params=

r=requests.post(

'',params)

print

('cookie is set to:'

)print

(r.cookies.get_dict())

r=requests.get(

'',cookies=r.cookies)

print

(r.text)

ps:以上內容為本人學習python爬蟲的學習筆記,不屬於原創內容,如有冒犯,希望諒解,謝謝!

python進行網頁資料爬取(一)

網路資料採集的一般流程 1 通過 網域名稱獲取html資料 2 根據目標資訊解析資料 3 儲存目標資訊 4 若有必要,移到另乙個網頁重複這個過程。一 通過 網域名稱獲取html資料 使用requests庫來進行獲取html資料 import requests url r requests.get u...

爬取需要登入的網頁內容,獲取cookie

首先需要獲取到網頁的cookie,例如爬取人人網登入後的 為找到cookie,如下圖 最後 如下就可以模擬網頁登入了 import urllib.request import urllib.parse url cookie anonymid jxsntfqs ofu0t6 depovince zgq...

爬蟲學習(八) 帶cookie的網頁進行爬取

前提 通常,很多 需要登入才能進行瀏覽,所以在爬取這些 時,也需要進行登入,並拿取登入時的cookie 登入網頁,伺服器會給客戶端乙個牌子cookie 訪問登入頁面時,帶著牌子進行請求才能返回響應 登入介面的爬取 做法 找到牌子,帶著牌子進行請求 cookie有的在請求頭里 如下是在登入後的頁面中找...