乙個小小的爬蟲技巧

2021-09-30 01:15:07 字數 558 閱讀 9120

寫過爬蟲的同學對 requests 庫應該非常熟悉了,這個庫是如此的好用。

但今天我就遇到了使用瀏覽器可以正常訪問,一旦使用 requests 去 get 此**,ip 就會被封,然後瀏覽器也無法訪問。需要等待幾個小時之後才能訪問。

過了幾個小時,我又使用瀏覽器訪問了此 url a,開啟谷歌瀏覽器的開發者工具,發現瀏覽器先請求另了乙個 url b 獲取了 cookie ,然後又使用此 cookie 去訪問目標 url a。

於是嘗試將此 cookie 放在 headers 中,傳入 requests 的 get 「126」引數中,發現訪問成功。

如果想完全自動化,有兩種方法:

較簡單的方法,使用 selenium 或者 splinter 直接訪問目標**,獲取相關資訊,如果仍想使用 requests 則可以將 selenium 或者 splinter 獲取到的 cookie 傳給 requests 使用。

較標準的方法,使用 request 先訪問 url b 獲取 cookie,注意包裝好仿瀏覽器的 headers。然後再使用此 cookie 訪問目標**。

希望今天的分享能夠幫助到你。

this乙個小小的迷惑

include using namespace std class b b b class b void virtual print 不知道為什麼列印的不一致呢 自己的理解 由於d繼承自b,構造d的時候需要先構造b,在b的建構函式中的this內部的具體情況如下圖,此時d還沒有構造出來,vfptr的詳...

python 乙個小小的效能提公升

你可以通過將函式或方法的定位結果精確地儲存至乙個本地變數來獲得一些效能提公升。乙個迴圈如 for key in token dict key dict.get key,0 1 每次迴圈都要定位dict.get。如果這個方法一直不變,可這樣實現以獲取小小的效能提公升 dict get dict.get...

開學立乙個小小的flag

開學了,在國科大的校園浪也浪夠了,好好的學習專業知識,為以後科研道路多加點油。作為乙個部落格新手,是聽從師兄的建議那裡才知道原來可以寫一些關於自己專業的知識發表在網上,之前都是搜一些其他人寫的文章,從沒想過自己也可以寫一下,因此,為了更好的複習自己所學的知識,也為了滿足自己小小的成就感,從這一年開始...