python爬蟲反爬 爬蟲怎麼測試反爬?

2021-10-10 10:53:34 字數 944 閱讀 5441

**有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。

就算要測試,你還要嘗試不同的delay。

如果設定的 delay 在**的反爬頻率外,那就測不出來。

如果在頻率內,那就被封。或者封ip,或者封賬號。

如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,

1、**有反爬,你被封。

然後呢,這個結果沒意義,除非你能準備測試出**反爬的那個頻率,才能針對的做出一些防反爬的措施。

2、**沒反爬,沒被封。

這個好像是你要的結果。但是這個也有不同情況,你要測多長時間,才能觸發到**的反爬機制。

還有,相同的delay,相同的**,用不同工具抓取,也會出現不同的效果。

其實,不管你抓什麼**,就道德方面,你都要把**當成有反爬來對待。如果因為**沒反爬,你就不設定delay,不停的抓取,佔據**的頻寬,那正常的使用者,可能就會出現一些無法響應等的異常情況,這不道德啊。

如果你是程式設計的話,設定隨機delay,隔段時間切換ip。

如果你是使用工具,比如火車頭、八爪魚、webscraper的話,我建議使用webscraper

webscraper是個谷歌外掛程式,有如下優點——免費

不受作業系統限制,只要安裝chrome瀏覽器即可執行

操作簡單,易上手。(很多沒有技術背景的同學,都可以快速學會)

功能強大:不僅可以抓靜態網頁,對於js動態載入的資料,也很容易抓取

根據已經測試的經歷,下列型別**均可抓取——58同城、大眾點評、美團、鏈家等

**、阿里巴巴、網易嚴選等可以在瀏覽器檢視到的資料,99%均可抓取。

而且防反爬比其他工具好很多,據實踐研究,用其他工具很容易被封的**,用webscraper就沒事。

下面這個**有學習webscraper的系統資料,有興趣可以看看。不用寫**的爬蟲技能 | 知識星球精選站​www.zsxq100.com

python爬京東 反爬 爬蟲怎麼測試反爬?

有沒有反爬,如果你沒有用爬蟲抓取過,你是不可能知道的。就算要測試,你還要嘗試不同的delay。如果設定的 delay 在 的反爬頻率外,那就測不出來。如果在頻率內,那就被封。或者封ip,或者封賬號。如果一定要測出來,就簡單粗暴的方法,你不要設定delay,就不間斷的抓,最後出現兩種情況,1 有反爬,...

Python爬蟲 字型反爬

網頁開發者自己創造一種字型,因為在字型中每個文字都有其代號,那麼以後在網頁中不會直接顯示這個文字的最終的效果,而是顯示他的代號,因此即使獲取到了網頁中的文字內容,也只是獲取到文字的代號,而不是文字本身。因為創造字型費時費力,並且如果把中國3000多常用漢字都實現,那麼這個字型將達到幾十兆,也會影響網...

python爬蟲(5)爬蟲高階知識 反爬

1 path環境變數的作用 為了讓cmd找到各種命令exe工具,配path就找exe所在目錄配置就可以了。c anaconda3 scripts 找pip.exe c anaconda3 python.exe 2.修改完path,要重啟cmd pip install asyncio第五講 動態htm...