爬蟲爬取方法分析與反爬蟲策略

2021-09-27 12:42:50 字數 663 閱讀 1911

爬蟲(spider),反爬蟲(anti-spider)

前言:網路爬蟲(spider或crawler),顧名思義,就是在網際網路上爬行的蟲子,那麼這只蟲子為什麼要在網上爬行呢?

很簡單:收集資訊。

在網際網路時代,誰掌握了資訊誰就把握了主動權。

一,爬蟲部分一些簡單建議:

(1)儘量減少請求次數,

(2)能抓列表頁就不抓詳情頁,

(3)減輕伺服器壓力

(4)如果真的對效能要求很高,可以考慮多執行緒(一些成熟的框架如 scrapy都已支援),甚至分布式。

二,反爬策略:

(1)反爬:通過user-agent來判斷是否是爬蟲。

反反爬 :可以通過偽裝請求頭中的user-agent來解決。

(2)反爬:將ip進行**。

反反爬 :可以通過**來偽裝ip

(3)反爬:通過訪問頻率來判斷是否是乙個爬蟲。

反反爬 :可以通過設定請求間隔,和爬取間隔。

(4)反爬:當一定時間內的總請求數超過上限,彈出驗證碼

反反爬 :可以通過解決驗證碼來破解。

(5)反爬:通過js來獲取頁面資料。

反反爬 : 頁面資料通過selenium+phantomjs來獲取。

爬蟲反爬機制及反爬策略

參考 爬蟲是一種模擬瀏覽器對 發起請求,獲取資料的方法。簡單的爬蟲在抓取 資料的時候,因為對 訪問過於頻繁,給伺服器造成過大的壓力,容易使 崩潰,因此 維護者會通過一些手段避免爬蟲的訪問,以下是幾種常見的反爬蟲和反反爬蟲策略 爬蟲與反爬蟲,這相愛相殺的一對,簡直可以寫出一部壯觀的鬥爭史。而在大資料時...

爬蟲與反爬

通過user agent客戶端標識來判斷是不是爬蟲 解決方法 封裝請求頭 user agent 封ip解決方法 設定 ip 通過訪問頻率來判斷是否是非人類請求 解決方法 設定爬取間隔和爬取策略 驗證碼解決方法 識別驗證碼 資料通過前端js非同步獲取 解決方法 1.通過selenium phantom...

python爬蟲爬取策略

在爬蟲系統中,待抓取url佇列是很重要的一部分。待抓取url佇列中的url以什麼樣的順序排列也是乙個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略 一 深度優先遍歷策略 深度優先遍歷策略是指網路爬蟲會從起始頁開始...