Python爬蟲之模擬登陸知乎

2021-07-27 15:41:35 字數 691 閱讀 7072

在chrome瀏覽器下抓取登陸過程的包(注意把preserve log勾上):

表單的結構主要包括_xsrf, password, phone_num

我們要找到_xsrf的值,重新載入zhihu.com之後我們可以發現response裡面有_xsrf

我們就可以把_xsrf的值讀取出來

然後set一下cookies,就可以模擬登陸知乎了。

import requests

from bs4 import beautifulsoup

zhihu_url = ''

headers =

loginurl = ''

cookies = requests.post(loginurl, data = data, headers = headers).cookies

#login

url = ''

html = requests.get(url, headers = headers, cookies = cookies)

soup = beautifulsoup(html.content, 'html.parser')

titles = soup.select(r'.questionheader-title')

print('title: ', titles[0].text)

Python 爬蟲模擬登陸知乎

在之前寫過一篇使用python爬蟲爬取電影天堂資源的部落格,重點是如何解析頁面和提高爬蟲的效率。由於電影天堂上的資源獲取許可權是所有人都一樣的,所以不需要進行登入驗證操作,寫完那篇文章後又花了些時間研究了一下python模擬登陸,網上關於這部分的資料很多,很多demo都是登陸知乎的,原因是知乎的登陸...

python模擬登陸知乎

恢復內容開始 在完成前面的階段的任務之後,我們現在已經能夠嘗試著去模擬登入一些 了。在這裡我們模擬登入一下知乎做一下實驗。筆者在這裡總共用了三天多的時間,下面給大家分享一下筆者是怎麼一步一步的模擬登入成功的。也希望大家能夠吸取我的教訓。初步的模擬登入 下面這段 是筆者最初寫的,我們慢慢來看 impo...

HttpClient 模擬登陸知乎

最近做爬蟲相關工作,我們平時用httpwebrequest比較多,每乙個url都要建立乙個httpwebrequest例項,而且有些 驗證比較複雜,在登陸及後續抓取資料的時候,每次請求需要把上次的cookie傳遞給這次請求。記得這篇部落格 結尾,dudu總結了 httpclient最與眾不同的地方是...