python 爬蟲登陸學校教務系統

2021-07-12 01:20:19 字數 653 閱讀 1661

好像很多人寫爬蟲,都是從登陸學校教務系統開始的。為什麼?學校教務系統渣啊,都是明文傳輸的,而且是200x年寫的,沒有用到很多現在的技術,所以相對來說容易些。感覺很多學校都是用的清元優軟的這個,我們學校還有驗證碼,稍微高階了一點。

整體思路: 1 對用firefox+httpfox進行抓包,發現驗證碼是在這裡的,

是用的get方法。於是可以請求不同的隨機數,獲得驗證碼,並儲存下來。同時發現,請求驗證碼時,伺服器會下發cookie,這是乙個典型的session,

我把它記錄下來,當post提交表單時,在header上加上。

2 用google的開源庫tesseract-ocr對驗證碼進行識別,為了提高識別的準確性,我是將彩色進行二值濾波,得到黑白,在用subprocess呼叫系統命令識別。

3 用python的requests庫進行提交表單,這裡發現post data裡面是有hidden data的,也要一併提交,不然會認為是錯誤。

4 找到成績的連線,get成績,然後用beautifulsoup進行html解析。

這期間是遇到了n個坑,真的是做專案的時候對人提高特別大,會了解很多新的東西。

Python爬蟲模擬登陸豆瓣

coding utf 8 import requests,re from pil import image class doubanspider object def init self self.session requests.session def login self,username,pa...

python爬蟲登陸 帶Cookie token

用python寫爬蟲整的很方便,弄了個模擬登陸,登陸後帶上token和cooke請求頁面 就拿gitlab練下手了,這個還是有一丟丟麻煩的 一 登陸介面 獲取隱藏域中的token,構建表單的時候需要 獲取到這個 gitlab session,登陸校驗時需要帶著這個資訊 準備好token和cookie...

python爬蟲人人網登陸

匯入模組from urllib import request,parse from http import cookiejar 儲存cookie,例項化cookiecookie cookiejar.cookiejar com plogin.do 登入賬號密碼data 轉換格式data parse.u...