爬蟲學習(八) 帶cookie的網頁進行爬取

2022-08-03 01:42:10 字數 712 閱讀 7926

# 前提:

# # 通常,很多**需要登入才能進行瀏覽,所以在爬取這些**時,也需要進行登入,並拿取登入時的cookie

# # 登入網頁,伺服器會給客戶端乙個牌子cookie

# # 訪問登入頁面時,帶著牌子進行請求才能返回響應

# # 登入介面的爬取

# 做法:

# 找到牌子,帶著牌子進行請求

# cookie有的在請求頭里

# 如下是在登入後的頁面中找到請求頭里的cookie,然後進行請求,訪問其含登陸資訊的頁面

import urllib.request

import urllib.parse

#將帶cookie請求頭資訊新增到請求物件中取

headers =

#需要登入驗證的網頁**

url = ""

request = urllib.request.request(url,headers=headers)

response = urllib.request.urlopen(request)

with open("renren.html","wb")as tf:

tf.write(response.read())

tf.close()

# 如下是在登入時就直接抓取登入時伺服器給的cookie資料,然後在之後訪問其他需要登入驗證的網頁時帶著cookie進行訪問就行了

網路爬蟲學習(八)

本期來學習下正規表示式,之前學習了requests模組 模組相比urllib模組,在很多方面都顯得非常簡潔,可以說是urllib模組的乙個昇華。那麼什麼是正規表示式呢?簡單來說,正規表示式是對字串操作的一種邏輯公式,就是事先定義好的一些特定字元 及這些特定字元的組合,組成乙個 規則字串 這個 規則字...

網頁中的cookie

cookie 的用途之一是儲存使用者在特定 上的密碼和 id。cookie是當你瀏覽某 時,儲存在你機器上的乙個小文字檔案,它記錄了你的使用者id,密碼 瀏覽過的網頁 停留的時間等資訊,當你再次來到該 時,通過讀取cookie,得知你的相關資訊,就可以做出相應的動作,如在頁面顯示歡迎你的標語,或者讓...

Cookie的使用 爬蟲

在訪問網際網路頁面時,通過無狀態協議 無法維持會話之間的狀態 http進行。例如 我們訪問需要登入的 可以通過兩種方式儲存登入狀態。1 cookie儲存會話資訊,儲存在客戶端。2 session儲存會話資訊,儲存在服務端。通過服務端給客戶端發sessionid等資訊,這些資訊一般儲存在客戶端的 co...