爬蟲 中 Cookies的處理

2021-10-25 05:19:09 字數 1452 閱讀 5615

儲存客戶端的相關狀態手動處理

在抓包工具中捕獲cookie,將其封裝在headers中

應用場景:cookie沒有有效時長且不是動態變化

自動處理

使用session機制

使用場景:動態變化的cookie

session物件:該物件和requests模組用法幾乎一致.如果在請求的過程中產生了cookie,如果該請求使用session發起的,則cookie會被自動儲存到session中.

1import requests

import re

def gethtmltext(url):

kv =

try:

r = requests.get(url, headers=kv,timeout=30)

r.raise_for_status()

return r.text

except:

return ""

def parsepage(ilt, html):

try:

plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)

tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)

for i in range(len(plt)):

price = eval(plt[i].split(':')[1])

title = eval(tlt[i].split(':')[1])

except:

print("")

def printgoodslist(ilt):

tplt = "\t\t"

print(tplt.format("序號", "**", "商品名稱"))

count = 0

for g in ilt:

count = count + 1

print(tplt.format(count, g[0], g[1]))

def main():

goods = '書包'

depth = 3

start_url = '' + goods

infolist =

for i in range(depth):

try:

url = start_url + '&s=' + str(44 * i)

html = gethtmltext(url)

parsepage(infolist, html)

except:

continue

printgoodslist(infolist)

main()

爬蟲cookies詳解

cookie,有時也用其複數形式 cookies,指某些 為了辨別使用者身份 進行 session 跟蹤而儲存在使用者本地終端上的資料 通常經過加密 定義於 rfc2109 和 2965 中的都已廢棄,最新取代的規範是 rfc6265 1 cookie其實就是瀏覽器快取。會話cookie 沒有設定e...

清除cookies的批處理 bat

清除cookies的批處理 bat 原理就是刪除當前使用者的cookies資料夾。這是個小技巧,把手動清除cookies的幾步折合成了一步。第一步 在桌面上新建乙個文字檔案為 一步清除cookies.txt 把副檔名改為bat,即 一步清除cookies.bat 第二步 echo off del q...

Python3爬蟲連續獲取Cookies的方法

第一次獲取cookies headers url response requests.get url cookies response.cookies.get dict print cookies 第二次獲取cookies 跳過ssl驗證證書 import ssl 設定忽略ssl驗證 宣告乙個coo...