詳解搜尋引擎的工作原理

2022-10-05 15:51:19 字數 2926 閱讀 3862

一名合格的seo工程師,一定會了解搜尋引擎的工作原理,對於百度和谷歌的原理幾乎差不多,只是其中有些細節不同,比如分詞技術等,因為國內搜尋一般都是百度,所以我們以後的課程都會針對於百度,當然,基礎類的只是同樣適用於谷歌!

搜尋引擎的工作原理其實很簡單,首先搜尋引擎大致分為4個部分,第乙個部分就是蜘蛛爬蟲,第二個部分就是資料分析系統,第三個部分是索引系統,第四個就是查詢系統咯,當然這只是基本的4個部分!

下邊我們來講搜尋引擎的工作流程:

什麼是搜尋引擎蜘蛛,什麼是爬蟲程式?

搜尋引擎蜘蛛程式,其實就是搜尋引擎的乙個自動應用程式,它的作用是什麼呢?其實很簡單,就是在網際網路中瀏覽資訊,然後把這些資訊都抓取到搜尋引擎的伺服器上,然後建立索引庫等等,我們可以把搜尋引擎蜘蛛當做乙個使用者,然後這個使用者來訪問我們的**,然後在把我們**的內容儲存到自己的電腦上!比較好理解。

搜尋引擎蜘蛛是怎樣抓取網頁的呢?

發現某乙個鏈結 → **這乙個網頁 → 加入到臨時庫 → 提取網頁中的鏈結 → 在**網頁 → 迴圈

首先搜尋引擎的蜘蛛需要去發現鏈結,至於怎麼發現就簡單了,就是pujqxabc通過鏈結鏈結鏈結。搜尋引擎蜘蛛在發現了這個鏈結後會把這個網頁**下來並且存入到臨時的庫中,當然在同時,會提取這個頁面所有的鏈結,然後就是迴圈。

搜尋引擎蜘蛛幾乎是24小時不休息的(在此為它感到悲劇,沒有假期。哈哈。)那麼蜘蛛**回來的網頁怎麼辦呢?這就需要到了第二個系統,也就是搜尋引擎的分析系統。

搜尋引擎的蜘蛛抓取網頁有規律嗎?

這個問題問的好,那麼搜尋引擎蜘蛛抓取網頁到底有規律嗎?答案是有!

如果蜘蛛胡亂的去抓取網頁,那麼就費死勁了,網際網路上的網頁,每天都增加那麼那麼那麼多,蜘蛛怎麼可以抓取的過來呢?所以說,蜘蛛抓取網頁也是有規律的!

蜘蛛抓取網頁策略1:深度優先

什麼是深度優先?簡單的說,就是搜尋引擎蜘蛛在乙個頁面發現乙個連線然後順著這個連線爬下去,然後在下乙個頁面又發現乙個連線,然後就又爬下去並且全部抓取,這就是深度優先抓取策略。大家看下圖

在上圖中就是深度優先的示意圖,我們假如網頁a在搜尋引擎中的權威度是最高的,假如d網頁的權威是最低的,如果說搜尋引擎蜘蛛按照深度優先的策略來抓取網頁,那麼就會反過來了,就是d網頁的權威度變為最高,這就是深度優先!

蜘蛛抓取網頁策略2:寬度優先

寬度優先比較好理解,就是搜尋引擎蜘蛛先把整個頁面的鏈結全部抓取一次,然後在抓取下乙個頁面的全部鏈結。

上圖呢,就是寬度優先的示意圖!這其實也就是大家平時所說的扁平化結構,大家或許在某個神秘的角落看到一篇文章,告誡大家,網頁的層度不能太多,如果太多會導致收錄很難,這就是來對付搜尋引擎蜘蛛的寬度優先策略,其實就是這個原因。

蜘蛛抓取網頁策略3:權重優先

如果說寬度優先比深度優先好,其實也不是絕對的,只能說是各有各的好處,現在搜尋引擎蜘蛛一般都是兩種抓取策略一起用,也就是深度優先+寬度優先,並且在使用這兩種策略抓取的時候,要參照這條連線的權重,如果說這條連線的權重還不錯,那麼就採用深度優先,如果說這條連線的權重很低,那麼就採用寬度優先!

那麼搜尋引擎蜘蛛怎樣知道這條連線的權重呢?

這裡有2個因素:1、層次的多與少;2、這個連線的外鏈多少www.cppcns.com與質量;

那麼如果層級太多的鏈結是不是就不會被抓取呢?這也不是絕對的,這裡邊要考慮許多因素,我們在後邊的高階中會降到邏輯策略,到時候我在詳細的給大家說!

蜘蛛抓取網頁策略4:重訪抓取

我想這個比較好理解,就是比如昨天搜尋引擎的蜘蛛來抓取了我們的網頁,而今天我們在這個網頁又加了新的內容,那麼搜尋引擎蜘蛛今天就又來抓取新的內容,這就是重訪抓取!重訪抓取也分為兩個,如下:

1、全部重訪

所謂全部重訪指的是蜘蛛上次抓取的鏈結,然後在這乙個月的某一天,全部重新去訪問抓取一次!

2、單個重訪

單個重訪一般都是針對某個頁面更新的頻率比較快比較穩定的頁面,如果說我們有乙個頁面,1個月也不更新一次。

那麼搜尋引擎蜘蛛第一天來了你是這個樣子,第二天,還是這個樣子,那麼第三天搜尋引擎蜘蛛就不會來了,會隔一段時間在來一次,比如隔1個月在來一次,或者等全部重訪的時候在更新一次。

以上呢,就是搜尋引擎蜘蛛抓取網頁的一些策略!那麼我們上邊說過,在搜尋引擎蜘蛛把網頁抓取回來,就開始了第二個部分,也就是資料程式設計客棧分析的這個部分。

資料分析系統

資料分析系統,是處理搜尋引擎蜘蛛抓取回來的網頁,那麼資料分析這一塊又分為了一下幾個:

1、網頁結構化

簡單的說,就是把那些html**全部刪掉,提取出內容。

2、消噪

消噪是什麼意思呢?在網頁結構化中,已經刪掉了html**,剩下了文字,那麼消噪指的就是留下網頁的主題內容,刪掉沒用的內容,比如版權!

3、查重

查重比較好理解,就是搜尋引擎查詢重複的網頁與內容,如果找到重複的頁面,就刪除。

4、分詞

分詞是神馬東西呢?就是搜尋引擎蜘蛛在進行了前面的步驟,然後提取出正文的內容,然後把我們的內容分成n個詞語,然後排列出來,存入索引庫!同時也會計算這乙個詞在這個頁面出現了多少次。

5、鏈結分析

這乙個步驟就是我們平時所做的做煩躁的工作,搜尋引擎會查詢,這個頁面的反向鏈結有多少,匯出鏈結有多少以及內鏈,然後給這個頁面多少的權重等。

資料索引系統

在進行了上邊的步驟之後,搜尋引擎就會把這些處理好的資訊放到搜尋引擎的索引庫中。那麼這個索引庫又大致分為以下兩個系統:

正排索引系統

什麼是正排索引?簡單的說,就是搜尋引擎把所有url都加上乙個編號,然後這個編號對應的就是這個url的內容,包括這個url的外鏈,關鍵詞密度等等資料。

搜尋引擎簡單的工作原理概況

搜尋引擎蜘蛛發現連線 → 根據蜘蛛的抓取策略抓取網頁 → 然後交到分析系統的手中 → 分析網頁 → 建立索引庫

ok,這節課可算是完了。太不容易啦我,今天只是對搜尋引擎工作的乙個簡單的講說,因為搜尋引擎的非常複雜的乙個系統,不可能幾十分鐘就可以全方位的講道,我們在高階或者高階教程中會慢慢的講到!

**:本文標題: 詳解搜尋引擎的工作原理

本文位址: /news/seo/72563.html

搜尋引擎工作原理

搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...

搜尋引擎工作原理

搜尋引擎工作原理 爬行和抓取 預處理 排名 爬行和抓取 1,是通過蛛蛛程式來實現的,蛛蛛主要是通過鏈結來抓取所有頁面的.所以要想讓蛛蛛盡量的抓取頁面,必須要吸引蛛蛛 優化 2,為了避免重複爬行和抓取 搜尋引擎建立了乙個位址庫用來儲存已經抓取的頁面 位址庫中的url 大多數是蛛蛛獲取到的,當然也有一些...

搜尋引擎工作原理

你剛才在 上買了一件東西 在首頁搜尋框中輸入 毛衣 二字並按回車鍵,這時你又產生了乙個pv,然後,網的主搜尋系統便開始為你服務,它首先對你輸入的內容基於乙個分詞庫進行分詞操作。眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子...