Python爬蟲實踐(10) 例項2教務系統登入

2021-07-13 21:19:50 字數 1623 閱讀 7130

開啟登入首頁,表面上,我們的url應該是:

按f12,檢視頁面元素如下圖:

看到提交方式為post,action後邊接的應該是我們提交使用者名稱密碼的**,猜測是:

為了驗證猜想,登入之後f12檢視network:

這個才是我們所需要的url

繼續下拉檢視需要傳入的資料,可以看到需要傳入使用者名稱密碼,分別是:`j_username:`和『j_password』:

其他兩個,logintype 和submit 通常來說也需要寫,但是由於學校使用的這個什麼 iframe 比較**,即使寫了也得不到完整的html原始碼。寫和不寫效果一樣。如果要寫,這個submit 由於編碼問題無法顯示,其實這就兩個選項:『登 錄』和』重 置『,在登入介面檢視原始碼可以看出:

好了,上**:

# 列印登入內容

print result.read().decode('gbk')

bit=bit()

bit.get_page()

執行結果:

登入之後的頁面只有這麼點東西,而自己如果在登入之後的頁面審查元素,則會出現比這多得多的**。

本以為模擬cookie登入失敗,但是其實這已經是成功登入了,此時如果用cookie開啟乙個頁面,比如成績查詢頁面,是能夠成功開啟的但是扒下來的**為什麼這麼少,這是個難點。

iframe這東西值得深究

python爬蟲 10 爬蟲例項(6)

coding utf 8 import re import requests import time f open 鬥破蒼穹.txt a def get info url response requests.get url,headers header if response.status code...

10個python爬蟲入門例項

1.爬取強大的bd頁面,列印頁面資訊 import requests 匯入爬蟲的庫,不然呼叫不了爬蟲的函式 response requests.get 生成乙個response物件 print 狀態碼 str response.status code 列印狀態碼 print response.tex...

Python爬蟲實踐

爬取的是盜版網的 免費 三寸人間 閱讀 請支援正版 以下是源 from urllib import request from bs4 import beautifulsoup import re 獲取html原始碼 response request.urlopen html response.rea...