通用爬蟲 Broad Crawls

scrapy預設對特定爬取進行優化。這些站點一般被乙個單獨的scrapy spider進行處理，不過這並不是必須或要求的(例如，也有通用的爬蟲能處理任何給定的站點)。

除了這種爬取完某個站點或沒有更多請求就停止的」專注的爬蟲」，還有一種通用的爬取型別，其能爬取大量(甚至是無限)的**，僅僅受限於時間或其他的限制。這種爬蟲叫做」通用爬蟲(broad crawls)」，一般用於搜尋引擎。

通用爬蟲一般有以下通用特性:

正如上面所述，scrapy預設設定是對特定爬蟲做了優化，而不是通用爬蟲。不過，鑑於其使用了非同步架構，scrapy對通用爬蟲也十分適用。本篇文章總結了一些將scrapy作為通用爬蟲所需要的技巧，以及相應針對通用爬蟲的scrapy設定的一些建議。

併發是指同時處理的request的數量。其有全域性限制和區域性(每個**)的限制。

scrapy預設的全域性併發限制對同時爬取大量**的情況並不適用，因此您需要增加這個值。增加多少取決於您的爬蟲能占用多少cpu。一般開始可以設定為100。不過最好的方式是做一些測試，獲得scrapy程序占取cpu與併發數的關係。為了優化效能，您應該選擇乙個能使cpu佔用率在80%-90%的併發數。

增加全域性併發數:

concurrent_requests
=100

當進行通用爬取時，一般您所注意的僅僅是爬取的速率以及遇到的錯誤。 scrapy使用infolog級別來報告這些資訊。為了減少cpu使用率(及記錄log儲存的要求), 在生產環境中進行通用爬取時您不應該使用debuglog級別。不過在開發的時候使用debug應該還能接受。

設定log級別:

log_level
='info'

除非您真的需要，否則請禁止cookies。在進行通用爬取時cookies並不需要， (搜尋引擎則忽略cookies)。禁止cookies能減少cpu使用率及scrapy爬蟲在記憶體中記錄的蹤跡，提高效能。

禁止cookies:

cookies_enabled
=false

對失敗的http請求進行重試會減慢爬取的效率，尤其是當站點響應很慢(甚至失敗)時，訪問這樣的站點會造成超時並重試多次。這是不必要的，同時也占用了爬蟲爬取其他站點的能力。

禁止重試:

retry_enabled
=false

download_timeout
=15

除非您對跟進重定向感興趣，否則請考慮關閉重定向。當進行通用爬取時，一般的做法是儲存重定向的位址，並在之後的爬取進行解析。這保證了每批爬取的request數目在一定的數量，否則重定向迴圈可能會導致爬蟲在某個站點耗費過多資源。

關閉重定向:

redirect_enabled
=false

有些站點(基於2023年的經驗資料，之多有1%)宣告其為 ajax crawlable 。這意味著該**提供了原本只有ajax獲取到的資料的純html版本。 **通過兩種方法宣告:

在url中使用#!- 這是預設的方式;

使用特殊的meta標籤 - 這在」main」, 「index」頁面中使用。

scrapy自動解決(1)；解決(2)您需要啟用 ajaxcrawlmiddleware:

ajaxcrawl_enabled
=true

通用爬取經常抓取大量的「index」頁面； ajaxcrawlmiddleware能幫助您正確地爬取。由於有些效能問題，且對於特定爬蟲沒有什麼意義，該中間預設關閉。

通用爬蟲 Broad Crawls

通用爬蟲和聚焦爬蟲

通用爬蟲和聚焦爬蟲

Scrapy通用爬蟲

通用爬蟲 Broad Crawls

通用爬蟲和聚焦爬蟲

通用爬蟲和聚焦爬蟲

Scrapy通用爬蟲

相關推薦