搜尋引擎蜘蛛抓取配額是什麼？

一月份時，google新的seo代言人gary illyes在google官方部落格上發了一篇帖子：what crawl budget means for googlebot，討論了搜尋引擎蜘蛛抓取份額相關問題。對大中型**來說，這是個頗為重要的seo問題，有時候會成為**自然流量的瓶頸。

今天的帖子總結一下gary illyes帖子裡的以及後續跟進的很多部落格、論壇帖子的主要內容，以及我自己的一些案例和理解。

強調一下，以下這些概念對百度同樣適用。

顧名思義，抓取份額是搜尋引擎蜘蛛花在乙個**上的抓取頁面的總的時間上限。對於特定**，搜尋引擎蜘蛛花在這個**上的總時間是相對固定的，不會無限制地抓取**所有頁面。

抓取份額的英文google用的是crawl budget，直譯是爬行預算，我覺得不太能說明是什麼意思，所以用抓取份額表達這個概念。

抓取份額是由什麼決定的iqgryyi呢?這牽扯到抓取需求和抓取速度限制。

抓取需求，crawl demand，指的是搜尋引擎「想」抓取特定**多少頁面。

決定抓取需求的主要有兩個因素。一是頁面權重，**上有多少頁面達到了基本頁面權重，搜尋引擎就想抓取多少頁面。二是索引庫里頁面是否太久沒更新了。說到底還是頁面權重，權重高的頁面就不會太久不更新。

頁面權重和**權重又是息息相關的，提高**權重，就能使搜尋引擎願意多抓取頁面。

搜尋引擎蜘蛛不會為了抓取更多頁面，把人家**伺服器拖垮，所以對某個**都會設定乙個抓取速度的上限，crawl rate limit，也就是伺服器能承受的上限，在這個速度限制內，蜘蛛抓取不會拖慢伺服器、影響使用者訪問。

伺服器反應速度夠快，這個速度限制就上調一點，抓取加快，伺服器反應速度下降，速度限制跟著下降，抓取減慢，甚至停止抓取。

所以，抓取速度限制是搜尋引擎「能」抓取的頁面數。

抓取份額是考慮抓取需求和抓取速度限制兩者之後的結果，也就是搜尋引擎「想」抓，同時又「能」抓的頁面數。

**權重高，頁面內容質量高，頁面夠多，伺服器速度夠快，抓取份額就大。

小**頁面數少，即使**權重再低，伺服器再慢，每天搜尋引擎蜘蛛抓取的再少，通常至少也能抓個幾百頁，十幾天怎麼也全站抓取一遍了，所以幾千個頁面的**根本不用擔心抓取份額的事。數萬個頁面的**一般也不是什麼大事。每天幾百個訪問要是能拖慢伺服器，seo就不是主要需要考慮的事了。

幾十萬頁以上的大中型**，可能要考慮抓取份額夠不夠的問題。

抓取份額不夠，比如**有 1 千萬頁面，搜尋引擎每天只能抓幾萬個頁面，那麼把**抓一遍可能需要幾個月，甚至一年，也可能意味著一些重要頁面沒辦法被抓取，所以也就沒排名，或者重要頁面不能及時被更新。

要想**頁面被及時、充分抓取，首先要保證伺服器夠快，頁面夠小。如果**有海量高質量資料，抓取份額將受限於抓取速度，提高頁面速度直接提高抓取速度限制，因而提高抓取份額。

百度站長平台和google search console都有抓取資料。如下圖某**百度抓取頻次：

上圖是seo每天一貼這種級別的小**，頁面抓取頻次和抓取時間(取決於伺服器速度和頁面大小)沒有什麼大關係，說明沒有用完抓取份額，不用擔心。

有的時候，抓取頻次和抓取時間是有某種對應關係的，如下圖另乙個大些的**：

可以看到，抓取時間改善(減小頁面尺寸、提高伺服器速度、優化資料庫)，明顯導致抓取頻次上公升，使更多頁面被抓取收錄，遍歷一遍**更快速。

google search console裡更大點站的例子：

最上面的是抓取頁面數，中間的是抓取資料量，除非伺服器出錯，這兩個應該是對應的。最下面的是頁面抓取時間。可以看到，頁面**速度夠快，每天抓取上百萬頁是沒有問題的。

當然，像前面說的，能抓上百萬頁是一方面，搜尋引擎想不想抓是另一方面。

大型**另乙個經常需要考慮抓取份額的原因是，不要把有限的抓取份額浪費在無意義的頁面抓取上，導致應該被抓取的重要頁面卻沒有機會被抓取。

浪費抓取份額的典型頁面有：

上面這些頁面被大量抓取，可能用完抓取份額，該抓的頁面卻沒抓。

當然首先是降低頁面檔案大小，提高伺服器速度，優化資料庫，降低抓取時間。

然後，盡量避免上面列出的浪費抓取份額的東西。有的是內容質量問題，有的是**結構問題，如果是結構問題，最簡單的辦法是robots檔案禁止抓取，但多少會浪費些頁面權重，因為權重只進不出。

某些情況下使用鏈結nofollow屬iqgryyi性可以節省抓取份額。小**，由於抓取份額用不完，加nofollow是沒有意義的。大**，nofollow是可以在一定程度上控制權重流動和分配的，精心設計的nofollow會使無意義頁面權重降低，提公升重要頁面權重。搜尋引擎抓取時會使用乙個url抓取www.cppcns.com列表，裡面待抓url是按頁面權重排序的，重要頁面權重提公升，會先被抓取，無意義頁面權重可能低到搜尋引擎不想抓取。

最後幾個說明：

本文標題: 搜尋引擎蜘蛛抓取配額是什麼？

本文位址:

搜尋引擎蜘蛛抓取配額是什麼？

搜尋引擎蜘蛛的抓取策略

怎麼遮蔽搜尋引擎蜘蛛抓取網頁收錄

常見搜尋引擎蜘蛛大全

搜尋引擎蜘蛛抓取配額是什麼？

搜尋引擎蜘蛛的抓取策略

怎麼遮蔽搜尋引擎蜘蛛抓取網頁收錄

常見搜尋引擎蜘蛛大全

相關推薦