爬蟲 cookie設定

2021-09-13 04:03:24 字數 2051 閱讀 7838

#識別人人網中的驗證碼

from lxml import etree

from urllib import request

url = ''

headers =

page_text = requests.get(url=url,headers=headers).text

#解析驗證碼

#登入login_url = 'ajaxlogin/login?1=1&uniquetimestamp=201924831467'

data =

#建立乙個session物件

session = requests.session()

#使用session進行請求的傳送:獲取cookie,且將cookie儲存到session中

session.post(url=login_url,data=data,headers=headers)

#獲取個人主頁對應的頁面資料

detail_url = '289676607/profile'

#該次請求傳送是就已經攜帶了cookie

page_text = session.get(url=detail_url,headers=headers).text

with open('./renren.html','w',encoding='utf-8') as fp:

fp.write(page_text)

#對古詩文網進行模擬登入

from lxml import etree

from urllib import request

headers =

session = requests.session()

#獲取驗證碼

#執行登入

Cookie的使用 爬蟲

在訪問網際網路頁面時,通過無狀態協議 無法維持會話之間的狀態 http進行。例如 我們訪問需要登入的 可以通過兩種方式儲存登入狀態。1 cookie儲存會話資訊,儲存在客戶端。2 session儲存會話資訊,儲存在服務端。通過服務端給客戶端發sessionid等資訊,這些資訊一般儲存在客戶端的 co...

網路爬蟲與cookie簡介

1 web爬蟲是一種機械人,她們會遞迴對各種資訊性web站點進行遍歷,獲取第乙個web頁面,然後獲取那個頁面指向的所有頁面,然後是那些web頁面指向的所有頁面。以此類推,遞迴地追蹤這些web鏈結的機械人會沿著html超連結建立的網路爬行,所以將其稱為爬蟲。2 web站點與robot.txt 如果乙個...

python爬蟲 cookie的使用

在做登入的post請求時,需要記住cookie,否則不能訪問登入後的頁面。下面是登入的 postdata urllib.parse.urlencode encode utf 8 使用urlencode編碼處理後,再設定為utf 8編碼header req urllib.request.request...