爬知乎了解BeautifulSoup用法

text=raw_input(("請輸入驗證碼:").encode("gb18030"))

return text

def zhihu():

sess=requests.session()

#請求報頭

#首先獲取登入頁面，找到需要post的資料(_xsrf),同時會記錄當前網頁的cookie值

html=sess.get("",headers=headers).text

#呼叫lxml解析庫

bs=beautifulsoup(html,'lxml')

#獲取之前get的頁面裡的_xsrf值

#_xsrf作用是防止csrf（跨站請求偽造），通常叫跨站攻擊，是一種利用**對使用者的一種信任機制來做壞事

#跨站攻擊通常通過偽裝成**信任的使用者的請求（cookie），盜取使用者資訊，欺騙微博伺服器

#所以**會通過設定乙個隱藏的字段來訪問這個md5碼字串，這個字串用來校驗使用者cookie和伺服器session的一致性

_xsrf=bs.find("input",attrs=).get("value")#bixpath好用點，更容易獲取html中我們需要的資料

captcha_url=""%(time.time()*1000)

captcha_data=sess.get(captcha_url,headers=headers).content#傳送請求，獲取二進位制資料流

#獲取驗證碼需要手動輸入

text=captcha(captcha_data)

data=

response=sess.post("",data=data,headers=headers)

# print response.text.encode("gb18030")#列印登入成功的頁面

#登入頁面獲取到cookie後，可以訪問任何地方，比如訪問個人主頁

html=sess.get("",headers=headers).text

print html

if __name__=="__main__":

zhihu()我們要先通過抓包工具獲取form裡面需要登入的條件，比如知乎需要獲取隱藏的字段_xsrf，還有賬號，密碼，驗證碼，所以先要在登入頁面找到_xsrf的value值，賬戶，密碼，驗證碼獲取的方法，需要獲取驗證碼的資料流，然後儲存在本地，開啟驗證碼，手動輸入，最終加入data中，通過post方法向伺服器傳送請求登入頁面，sess儲存cookie值，最終我們可以通過cookie值get任何地方。

爬知乎了解BeautifulSoup用法

爬去知乎分析

python動態爬取知乎 python爬取微博動態

知乎資料爬取及儲存

爬知乎了解BeautifulSoup用法

爬去知乎分析

python動態爬取知乎 python爬取微博動態

知乎資料爬取及儲存

相關推薦