搜尋引擎蜘蛛的抓取策略

2022-10-04 07:30:13 字數 883 閱讀 4244

這篇文章主要講解搜尋引擎的蜘蛛爬蟲的工作原理,包括它的四種抓取策略。

首先呢,搜尋引擎的蜘蛛抓取網頁是有著一定的規律,不會去隨便抓取網頁,並且呢,蜘蛛是通過超連線來抓取網頁的,我們剛剛說了,搜尋引擎有四種抓取網頁的策略,下邊我們一一講解。

深度優先

所謂深度優先,就是蜘蛛在乙個頁面中發現第乙個超連結,然後爬取這個頁面,當爬到第二個頁面後,在第二個頁面發現的第乙個超連結,然後再順著往下爬,如下圖:

深度優先,導致蜘蛛抓取的網頁的質量,程式設計客棧越來越低,並且在傳遞**權重上,也有著根本的問題。

寬度優先

在深度優先上,搜尋引擎有著根本的問題,那麼在之後,搜尋引擎又推出了蜘蛛抓取的第二個策略,也就是寬度優先,寬度優先指的是,蜘蛛會先把這個頁面所有的鏈結都爬一次,然後在順著這些鏈結往下爬,如下圖:

但是寬度優先也存在著問題,那就是蜘蛛抓取的效率和質量問題。

先寬後深 – 權重優先

現在搜尋引擎是寬度和深度優先的結合,蜘蛛在抓取乙個網頁的時候,會先把這個頁面所有的鏈結都抓取一次,然後再根據這些ulr的權重來判定,那個url的權重高,那麼就採用深度優先,那個url權重低,就採用寬度優先程式設計客棧或者不抓取。

重訪抓取策略

重訪抓取策略,是最後的乙個,搜尋引擎蜘蛛在抓取完這個網頁之後,然後根據這個頁面的權重、包括它的更新頻率、更新質量、外鏈的數量等等來判定,那麼對於權重高的頁面,蜘蛛會在相隔較短的時間段在回來重新抓取,比如新浪網,權重很高,搜尋引擎蜘蛛都是按照秒來重新抓取的。而對於一些權重較低的頁面,比如長期不更新的頁面,那麼蜘蛛會隔好長時間在來抓取一次,比如我們常常搜尋的百度大更新,蜘蛛就是對於一些網頁權重較低的頁面進行一次全部的抓取,一般情況,百度大更新,乙個月一次。

本文標題: 搜尋引擎蜘蛛的抓取策略

本文位址: /news/seo/73557.html

搜尋引擎蜘蛛抓取配額是什麼?

一月份時,google新的seo代言人gary illyes在google官方部落格上發了一篇帖子 what crawl budget means for googlebot,討論了搜尋引擎蜘蛛抓取份額相關問題。對大中型 來說,這是個頗為重要的seo問題,有時候會成為 自然流量的瓶頸。今天的帖子總結...

搜尋引擎 網路爬蟲抓取策略

爬蟲的不同抓取策略,就是利用不同的方法確定待抓取url佇列中url優先順序的。爬蟲的抓取策略有很多種,但不論方法如何,基本目標一致 優先選擇重要網頁進行抓取。網頁的重要性,評判標準不同,大部分採用網頁的流行性進行定義。效果較好或有代表性的抓取策略 1 寬度優先遍歷策略 2 非完全pagerank策略...

怎麼遮蔽搜尋引擎蜘蛛抓取網頁收錄

正常情況下做 的話,收錄多,更新多點,對優化有些幫助。可是有些時候,遮蔽搜尋引擎蜘蛛抓取網頁收錄,天外飛仙弄個測試 裡面的資料都是假的,來搞個遮蔽搜尋引擎。1 htaccess遮蔽搜尋引擎蜘蛛的方式對來說更加隱蔽!rewriterule r 301,l 2 通過 robots.txt 檔案遮蔽 可以...