穿越網頁表單與登入視窗進行爬取

今天本文將見紹簡單的網頁表單與登入視窗爬取，主要說明如何進行前期的網路表單穿越與登入視窗，如有任何不足之處，望批評指正，謝謝！

測試表單**：

`import requests
params=
r=requests.post(
'',data=params)
print
(r.text)`

並非所有的表單都只是一堆文字欄位和乙個提交按鈕，有的表單會比較複雜，如擁有單選按鈕、核取方塊和下拉框等。但是無論表單有多麼複雜，仍然只需要關注兩件事：欄位名稱和字段值。欄位名稱可以通過檢視源**並尋找name屬性獲得。有些欄位會規定字段值的格式，而有些也不會，如需要確定字段值的格式可以跟蹤瀏覽器和**之間來回傳送的get和post請求。

跟蹤get請求最方便的方式就是看**的url鏈結，可以看出字段值的輸出格式；跟蹤複雜post表單時，檢查瀏覽器的源**，network中的form data，可以看見伺服器傳遞的引數。

更為詳細的檢視請求引數，chrome中在選單中通過「更多工具」——「開發者工具」（快捷鍵f12）開啟，可以檢視所有請求。

測試**：

import requests
files=
#a為開啟的檔案路徑
r=requests.post(
'',files=files)
print
(r.text)

測試**：

import requests
params=
r=requests.post(
'',params)
print
('cookie is set to:'
)print
(r.cookies.get_dict())
r=requests.get(
'',cookies=r.cookies)
print
(r.text)

ps:以上內容為本人學習python爬蟲的學習筆記，不屬於原創內容，如有冒犯，希望諒解，謝謝！

python進行網頁資料爬取（一）

網路資料採集的一般流程 1 通過網域名稱獲取html資料 2 根據目標資訊解析資料 3 儲存目標資訊 4 若有必要，移到另乙個網頁重複這個過程。一通過網域名稱獲取html資料使用requests庫來進行獲取html資料 import requests url r requests.get u...

爬取需要登入的網頁內容，獲取cookie

首先需要獲取到網頁的cookie,例如爬取人人網登入後的為找到cookie，如下圖最後如下就可以模擬網頁登入了 import urllib.request import urllib.parse url cookie anonymid jxsntfqs ofu0t6 depovince zgq...

爬蟲學習（八）帶cookie的網頁進行爬取

前提通常，很多需要登入才能進行瀏覽，所以在爬取這些時，也需要進行登入，並拿取登入時的cookie 登入網頁，伺服器會給客戶端乙個牌子cookie 訪問登入頁面時，帶著牌子進行請求才能返回響應登入介面的爬取做法找到牌子，帶著牌子進行請求 cookie有的在請求頭里如下是在登入後的頁面中找...

穿越網頁表單與登入視窗進行爬取

python進行網頁資料爬取（一）

爬取需要登入的網頁內容，獲取cookie

爬蟲學習（八） 帶cookie的網頁進行爬取

相關推薦

爬蟲學習（八）帶cookie的網頁進行爬取