python 爬蟲 登入知乎

2021-07-09 17:24:10 字數 1632 閱讀 5697

pytho3.4

requests.get

request.post

requests.session

1 通過瀏覽器f12開發者工具,找到登入時提交的表單以及請求的url

注意請求的url不是瀏覽器網域名稱框的url

因為知乎改了,現在不需要驗證碼了,所以中少了驗證碼的引數,不過**裡是有的

2 設計到登入等會跳轉的頁面,推薦使用火狐瀏覽器,然後開啟持續日誌功能

3具體實現見**

__author__ = 'guo'

# coding:utf-8

import requests

from bs4 import beautifulsoup

# 解決編碼問題

try:

from io import bytesio as stringio

except importerror:

try:

from cstringio import stringio

except importerror:

from io import stringio

deflogin

(): header =

session = requests.session() # 處理cookie

res = session.get('',headers = header) # seesionh會記下訪問驗證碼的cookie

fp.write(res.content) # 講驗證碼儲存在本地。

# print(res.content)

#print(res.cookies)

# cook = res.cookies

capt = input('input captcha') # 手動讀取

xsrf = beautifulsoup(session.get('').content).find('input', attrs=)['value'] # 從原始碼中獲取的表單中的乙個字段

print(xsrf)

data =

response = session.post('',data = data,headers = header ) # post 登入時提交的表單,此時session中是儲存了此時的cookie 的

print(response.status_code)

print(response.content.decode('utf-8'))

html = session.get('') # 再次訪問,由於cookie 的存在,記下了登入的狀態,所以此時就可以獲取我們登入之後的類容了啦。

print(html.content.decode('utf-8'))

if __name__ == '__main__':

login()

python 爬蟲 知乎

人生苦短,唯有python 是不是 寫多了自己就熟練了呢?人人網爬蟲模板,具體操作以後有機會再新增吧!coding utf 8 import urllib2 import urllib import cookielib import re def zhihubrower url,user,passw...

Python3 爬蟲(四) 登入知乎

有些 需要使用者登入,利用python實現知乎 的模擬登入。用cookies記錄登入資訊,然後就可以抓取登入之後才能看到的資訊。開啟工具fiddler,在瀏覽器中訪問 中就能看到捕捉到的所有連線資訊。在左側選擇登入的那一條 觀察右側,開啟 inspactors 透檢視,上方是該條連線的請求報文資訊,...

知乎首頁爬蟲

嘗試了一下知乎首頁爬蟲 import re import requests from urllib import parse 首頁鏈結 headers resp requests.get headers headers print resp.text urls re.findall content ...