Python爬蟲反反爬總結

2021-09-19 13:46:52 字數 549 閱讀 1013

最基本的反爬手段,一般被關注的變數是useragent和refer,可以考慮使用瀏覽器裡的。其中的contentlength欄位requests包會填寫,可以不用。content-type欄位是post表單的格式,必須和**的一樣。

待續資料量大用ip池(偽裝成多個訪問者),爬取速度要求低用sleep()(偽裝**類頻率的訪問)

實時更新,cookies[response.cookies.name] = response.cookies.value

遇到請求被重定向的情況,要麼用requests.session記錄全過程返回的cookie,要麼用response.request.headers.get("cookie"),後者的返回值是乙個"cookie.name=cookie.value"的字串。

一種簡單易於操作但較難反反爬的手段。驗證碼數量較少的情況可以人工填寫,驗證碼出現次數多的情況只能訓練機器學習模型自動填寫。

一般由js動態生成的資料都是向特定的位址發get請求得到的,返回的可能是json也可能是html或xml,觀察其位址構造、資料結構,模擬請求。略略

更多反爬方式?:

爬蟲 反反爬 IP

ip反爬不用說了,入門級的 git上開源的proxy pool很多,找那個most star的,缺點用的人多,響應速度慢,可用率低。公司有預算的話,購買付費 常用的幾家 芝麻 阿布雲,多貝雲,大象,曾打 給 公司,貌似都是在全國各地拉網線,建機房,adsl撥號,質量差不太多,詳細參考崔慶才部落格,有...

python爬蟲之反爬與反反爬技術

1 headers請求頭協議 可以在每個網頁的這裡找到 這裡的request headers就可以找到我們需要加上的請求頭資訊,使用requests模組一般情況下加上 user agent 就行了。下面對請求頭資訊裡的幾個部分做乙個簡單介紹 user agent 儲存在使用者終端上的資料 refer...

python反反爬,爬取貓眼評分

用fontcreator開啟base.woff.檢視對應字型關係 初始化時將對應關係寫入字典中。1 usr bin env python2 coding utf 83 author 南樓 45 6import requests 7importre8 importos9 10from fonttool...