搜尋引擎蜘蛛抓取配額是什麼?

2022-09-24 16:27:16 字數 2316 閱讀 6471

一月份時,google新的seo代言人gary illyes在google官方部落格上發了一篇帖子:what crawl budget means for googlebot,討論了搜尋引擎蜘蛛抓取份額相關問題。對大中型**來說,這是個頗為重要的seo問題,有時候會成為**自然流量的瓶頸。

今天的帖子總結一下gary illyes帖子裡的以及後續跟進的很多部落格、論壇帖子的主要內容,以及我自己的一些案例和理解。

強調一下,以下這些概念對百度同樣適用。

顧名思義,抓取份額是搜尋引擎蜘蛛花在乙個**上的抓取頁面的總的時間上限。對於特定**,搜尋引擎蜘蛛花在這個**上的總時間是相對固定的,不會無限制地抓取**所有頁面。

抓取份額的英文google用的是crawl budget,直譯是爬行預算,我覺得不太能說明是什麼意思,所以用抓取份額表達這個概念。

抓取份額是由什麼決定的iqgryyi呢?這牽扯到抓取需求和抓取速度限制。

抓取需求,crawl demand,指的是搜尋引擎「想」抓取特定**多少頁面。

決定抓取需求的主要有兩個因素。一是頁面權重,**上有多少頁面達到了基本頁面權重,搜尋引擎就想抓取多少頁面。二是索引庫里頁面是否太久沒更新了。說到底還是頁面權重,權重高的頁面就不會太久不更新。

頁面權重和**權重又是息息相關的,提高**權重,就能使搜尋引擎願意多抓取頁面。

搜尋引擎蜘蛛不會為了抓取更多頁面,把人家**伺服器拖垮,所以對某個**都會設定乙個抓取速度的上限,crawl rate limit,也就是伺服器能承受的上限,在這個速度限制內,蜘蛛抓取不會拖慢伺服器、影響使用者訪問。

伺服器反應速度夠快,這個速度限制就上調一點,抓取加快,伺服器反應速度下降,速度限制跟著下降,抓取減慢,甚至停止抓取。

所以,抓取速度限制是搜尋引擎「能」抓取的頁面數。

抓取份額是考慮抓取需求和抓取速度限制兩者之後的結果,也就是搜尋引擎「想」抓,同時又「能」抓的頁面數。

**權重高,頁面內容質量高,頁面夠多,伺服器速度夠快,抓取份額就大。

小**頁面數少,即使**權重再低,伺服器再慢,每天搜尋引擎蜘蛛抓取的再少,通常至少也能抓個幾百頁,十幾天怎麼也全站抓取一遍了,所以幾千個頁面的**根本不用擔心抓取份額的事。數萬個頁面的**一般也不是什麼大事。每天幾百個訪問要是能拖慢伺服器,seo就不是主要需要考慮的事了。

幾十萬頁以上的大中型**,可能要考慮抓取份額夠不夠的問題。

抓取份額不夠,比如**有 1 千萬頁面,搜尋引擎每天只能抓幾萬個頁面,那麼把**抓一遍可能需要幾個月,甚至一年,也可能意味著一些重要頁面沒辦法被抓取,所以也就沒排名,或者重要頁面不能及時被更新。

要想**頁面被及時、充分抓取,首先要保證伺服器夠快,頁面夠小。如果**有海量高質量資料,抓取份額將受限於抓取速度,提高頁面速度直接提高抓取速度限制,因而提高抓取份額。

百度站長平台和google search console都有抓取資料。如下圖某**百度抓取頻次:

上圖是seo每天一貼這種級別的小**,頁面抓取頻次和抓取時間(取決於伺服器速度和頁面大小)沒有什麼大關係,說明沒有用完抓取份額,不用擔心。

有的時候,抓取頻次和抓取時間是有某種對應關係的,如下圖另乙個大些的**:

可以看到,抓取時間改善(減小頁面尺寸、提高伺服器速度、優化資料庫),明顯導致抓取頻次上公升,使更多頁面被抓取收錄,遍歷一遍**更快速。

google search console裡更大點站的例子:

最上面的是抓取頁面數,中間的是抓取資料量,除非伺服器出錯,這兩個應該是對應的。最下面的是頁面抓取時間。可以看到,頁面**速度夠快,每天抓取上百萬頁是沒有問題的。

當然,像前面說的,能抓上百萬頁是一方面,搜尋引擎想不想抓是另一方面。

大型**另乙個經常需要考慮抓取份額的原因是,不要把有限的抓取份額浪費在無意義的頁面抓取上,導致應該被抓取的重要頁面卻沒有機會被抓取。

浪費抓取份額的典型頁面有:

上面這些頁面被大量抓取,可能用完抓取份額,該抓的頁面卻沒抓。

當然首先是降低頁面檔案大小,提高伺服器速度,優化資料庫,降低抓取時間。

然後,盡量避免上面列出的浪費抓取份額的東西。有的是內容質量問題,有的是**結構問題,如果是結構問題,最簡單的辦法是robots檔案禁止抓取,但多少會浪費些頁面權重,因為權重只進不出。

某些情況下使用鏈結nofollow屬iqgryyi性可以節省抓取份額。小**,由於抓取份額用不完,加nofollow是沒有意義的。大**,nofollow是可以在一定程度上控制權重流動和分配的,精心設計的nofollow會使無意義頁面權重降低,提公升重要頁面權重。搜尋引擎抓取時會使用乙個url抓取www.cppcns.com列表,裡面待抓url是按頁面權重排序的,重要頁面權重提公升,會先被抓取,無意義頁面權重可能低到搜尋引擎不想抓取。

最後幾個說明:

本文標題: 搜尋引擎蜘蛛抓取配額是什麼?

本文位址:

搜尋引擎蜘蛛的抓取策略

這篇文章主要講解搜尋引擎的蜘蛛爬蟲的工作原理,包括它的四種抓取策略。首先呢,搜尋引擎的蜘蛛抓取網頁是有著一定的規律,不會去隨便抓取網頁,並且呢,蜘蛛是通過超連線來抓取網頁的,我們剛剛說了,搜尋引擎有四種抓取網頁的策略,下邊我們一一講解。深度優先 所謂深度優先,就是蜘蛛在乙個頁面中發現第乙個超連結,然...

怎麼遮蔽搜尋引擎蜘蛛抓取網頁收錄

正常情況下做 的話,收錄多,更新多點,對優化有些幫助。可是有些時候,遮蔽搜尋引擎蜘蛛抓取網頁收錄,天外飛仙弄個測試 裡面的資料都是假的,來搞個遮蔽搜尋引擎。1 htaccess遮蔽搜尋引擎蜘蛛的方式對來說更加隱蔽!rewriterule r 301,l 2 通過 robots.txt 檔案遮蔽 可以...

常見搜尋引擎蜘蛛大全

谷歌 google.com googlebot http www.google.com bot.html 中文版請開啟以下頁面 雅虎 yahoo.com yahoo http misc.yahoo.com.cn help.html 開啟後跳轉到以下頁面 有道 yodao.com yodaobot 搜...