Scrapy 模擬登陸

2022-07-21 02:33:11 字數 2106 閱讀 2919

1. 重寫  爬蟲中的start_requests 方法,直接攜帶cookies 進行登入

注意的是在scrapy 中,cookies 不能放在headers 中,而需要把cookies作為乙個獨立的引數。因為在scrapy配置檔案中單單獨定義了乙個cookies配置,讀取cookies

會直接從該配中進行cookies的獲取。

']#重寫start_requests,攜帶cookie登入

defstart_requests(self):

#直接攜帶登入後的cookies,用程式進行模擬登陸,此cookies 是手動從登入後的使用者頁面獲取的cookies值。

cookies = "

anonymid=jt79zqv32wojoo; _r01_=1; [email protected]; ln_hurl= jebe_key=f32e6ca1-2cf0-4c86-9704-f044e43596c6%7c6c2f984601684a4271fb8c935cca39fb%7c1552485889426%7c1%7c1552485886593; _de=3c53b1db040c239cea46451ce0ebfbb16debb8c2103de356; depovince=guz; jebecookies=383e5b17-6a15-4f29-87e4-8bc34d3f7d5c|||||; jsessionid=abcflwgp7q7zdbiplx4mw; ick_login=b8ee1ebc-9b38-4b55-85e2-278bdc40f14a; p=c4d2de67ce9245d603bc0ee23389a23f9; first_login_flag=1; t=1130c7f349026f1788028140af80c58d9; societyguester=1130c7f349026f1788028140af80c58d9; id=467372239; xnsid=479ffbb4; ver=7.0; loginfrom=null; wp_fold=0; jebe_key=f32e6ca1-2cf0-4c86-9704-f044e43596c6%7c6c2f984601684a4271fb8c935cca39fb%7c1552485889426%7c1%7c1553576509085"#

使用字典推導式進行 轉化成字典形式的cookies

cookies =

yield

scrapy.request(

self.start_urls[0]

, dont_filter=true,

cookies=cookies

)defparse(self, response):

import

re

print(re.findall('

鄧紀雲',response.body.decode())) # 找是否含有該名字資訊,如果有的話就說明模擬登陸成功!

在配置檔案中註冊:可以觀察 cookies 在scrapy 傳送請求的傳遞過程。

cookies_debug=true
2. scrapy 模擬登陸之傳送post的請求

案例:登入github 

3. scrapy 通過scrapy.form_request.from_response() 方法進行模擬登陸。

Scrapy中用cookie模擬登陸新浪微博

最近想做乙個微博的搜尋頁文字分析的小專案,因為開放平台裡這個api的限制略多,決定進入爬蟲坑自己動手 之前久聞scrapy大名,嘗試了一下,抓取網頁甚是好用,避免了許多http方面的繁瑣處理 不過還是卡在了登陸這一步上 在scrapy中具體實現時,就是在爬取的spider類中,過載start req...

九 在Scrapy中模擬登陸

使用formrequest.from response 方法模擬使用者登入 官方參考文件 1 說明 通過 會實現對某些表單字段 如資料或是登入介面中的認證令牌等 的預填充。使用scrapy抓取網頁時,如果想要預填充或重寫像使用者名稱 使用者密碼這些表單字段,可以使用 formrequest.from...

scrapy模擬登陸豆瓣網 處理驗證碼登陸

我們知道有一些 是需要驗證碼才可以登陸的,比如豆瓣網在錯誤輸入幾次賬號密碼後,都會需要提交包含驗證碼的表單才可以登陸,便需要處理驗證碼型登陸 技術路徑 scrapy爬蟲框架。技術重點 還是scrapy的formrequest方法。由於由於不涉及到豆瓣網登陸後頁面的解析 老生常談的問題了 我們只需要編...