搜尋引擎的工作原理

2021-07-28 09:27:58 字數 512 閱讀 2450

搜尋引擎是通過一種特定的規律的軟體跟蹤網頁的鏈結,從乙個鏈結爬到另乙個鏈結,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為「蜘蛛」,也被稱為是「機械人」。搜尋引擎的爬行是被輸入了一定的規則的,它需要遵從一些命令或檔案的內容。

搜尋引擎是通過蜘蛛跟蹤鏈結爬行到網頁,並將爬行的資料存入到原始頁面資料庫。其中的頁面資料與使用者瀏覽器得到的html是完全一樣的。搜尋引擎蜘蛛在抓取頁面時,也做一定的重複內容的檢測,一旦遇到權重很低的**上有大量抄襲,採集或者複製的內容,很有可能就不再爬行了。

搜尋引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理

1.提取文字

2.中文分詞

3.去停止詞

4.消除噪音

5.正向索引

6.倒排索引

7.鏈結關係計算

8.特殊檔案處理

使用者在搜尋框中輸入關鍵字後,排名程式呼叫索引庫資料,計算排名給使用者,排名的過程與使用者直接互動。但是,由於搜尋引擎的資料量龐大,雖然達到每日都有小的更新,但是一般情況下,但是根據日,周,月階段性不同幅度的更新。

搜尋引擎工作原理

搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...

搜尋引擎工作原理

搜尋引擎工作原理 爬行和抓取 預處理 排名 爬行和抓取 1,是通過蛛蛛程式來實現的,蛛蛛主要是通過鏈結來抓取所有頁面的.所以要想讓蛛蛛盡量的抓取頁面,必須要吸引蛛蛛 優化 2,為了避免重複爬行和抓取 搜尋引擎建立了乙個位址庫用來儲存已經抓取的頁面 位址庫中的url 大多數是蛛蛛獲取到的,當然也有一些...

搜尋引擎工作原理

你剛才在 上買了一件東西 在首頁搜尋框中輸入 毛衣 二字並按回車鍵,這時你又產生了乙個pv,然後,網的主搜尋系統便開始為你服務,它首先對你輸入的內容基於乙個分詞庫進行分詞操作。眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子...