搜尋引擎的工作原理

搜尋引擎是通過一種特定的規律的軟體跟蹤網頁的鏈結，從乙個鏈結爬到另乙個鏈結，像蜘蛛在蜘蛛網上爬行一樣，所以被稱為「蜘蛛」，也被稱為是「機械人」。搜尋引擎的爬行是被輸入了一定的規則的，它需要遵從一些命令或檔案的內容。

搜尋引擎是通過蜘蛛跟蹤鏈結爬行到網頁，並將爬行的資料存入到原始頁面資料庫。其中的頁面資料與使用者瀏覽器得到的html是完全一樣的。搜尋引擎蜘蛛在抓取頁面時，也做一定的重複內容的檢測，一旦遇到權重很低的**上有大量抄襲，採集或者複製的內容，很有可能就不再爬行了。

搜尋引擎將蜘蛛抓取回來的頁面，進行各種步驟的預處理

1.提取文字

2.中文分詞

3.去停止詞

4.消除噪音

5.正向索引

6.倒排索引

7.鏈結關係計算

8.特殊檔案處理

使用者在搜尋框中輸入關鍵字後，排名程式呼叫索引庫資料，計算排名給使用者，排名的過程與使用者直接互動。但是，由於搜尋引擎的資料量龐大，雖然達到每日都有小的更新，但是一般情況下，但是根據日，周，月階段性不同幅度的更新。