快來看看搜尋引擎到底是怎麼工作的吧!

2021-09-29 19:34:53 字數 1035 閱讀 4466

搜尋引擎(search engine,簡寫為se)是指根據一定的策略、運用特定的電腦程式從網際網路上蒐集資訊,在對資訊進行組織和處理後,為使用者提供檢索服務,將使用者檢索相關的資訊展示給使用者的系統。

搜尋引擎包括全文索引、目錄索引、元搜尋引擎、垂直搜尋引擎、集合式搜尋引擎、門戶搜尋引擎與免費鏈結列表等。

在網際網路中發現、蒐集網頁資訊

對資訊進行提取和組織建立索引庫

檢索器根據使用者輸入的查詢關鍵字,在索引庫中快速檢出文件,進行文件與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給使用者

搜尋引擎用來爬行和訪問頁面的程式被稱為蜘蛛,也稱為機械人。

最簡單的爬行檢視方式分為深度優先和廣度優先。

(1)深度優先

蜘蛛沿著發現的鏈結一直向前爬行,直到前面再也沒有其他鏈結,然後返回到第乙個頁面,沿著另乙個鏈結再一直往前爬行。

(2)廣度優先

蜘蛛在乙個頁面上發現多個鏈結時,不是順著乙個鏈結一直向前,而是把頁面上所有第一層鏈結都爬一遍,然後再沿著第二層頁面上的發現鏈結爬向第三層。

現在的搜尋引擎還是以文字內容為基礎。因此預處理要做的就是從html檔案中去除標籤、程式,提取出可以用於排名處理的網頁文字內容,有時也會提取一些特殊包含文字資訊的**。比如meta 標籤中的文字、替代文字、flas**件的替代文字,鏈結錨文字

頁面內容中經常都會有一些出現頻率很高,卻對內容沒有任何影響的詞,如「的、地、得」之類的助詞,「啊、哈、呀」之類的感嘆詞。這些詞被稱為停止詞,搜尋引擎在索引頁面之前會去掉這些停止詞,使索引資料主題便為突出,減少無謂的計算量。

同一篇文章經常會重複出現在不同**及同乙個**的不同**上,搜尋引擎並不喜歡這種重複性的內容。使用者搜尋時,如果在前兩頁看到的都是來自不同**的同一篇文章,使用者體驗也差。搜尋引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重複內容,這個過程就稱為「去重」。

現在所有的主流搜尋引擎排名因素中都包含網頁之間的鏈結流動資訊。搜尋引擎在抓取頁面內容後,必須事前計算出:頁面上有哪些鏈結指向哪些其他頁面,每個頁面有哪些匯入鏈結,鏈結使用了什麼錨文字,這些複雜的鏈結指向關係形成了**和頁面的鏈結權重。

搜尋引擎是如何工作的

當我們在搜尋引擎上鍵入片語進行搜尋時可能並沒有想過,它是如何把我們想要的資料在那麼短的時間內找出來。事實上幾乎所有的搜尋引擎都會有下列的功能以保證它能夠又好又快的為我們提供資料。1,爬行整個web crawling web 搜尋引擎自動執行的程式通過web的超級鏈結 hyperlink 結構爬行整個...

我是怎麼選搜尋引擎的

最近試用了不少搜尋引擎,寫個小總結吧。用的是蘋果電腦,常用瀏覽器是safari。而safari裡只有5個搜尋引擎可選 經過一段時間的使用,慢慢習慣了搜尋結果裡不再是鋪天蓋地的廣告,搜到的資訊的準確度也還不錯。後來,開始實習。公司的wi fi可以無障礙訪問全世界的網際網路。工作時,經常需要搜尋一些技術...

搜尋引擎是怎麼判定原創與抄襲

我們知道,原創內容在搜尋引擎排名中占有重要地位,但做原創內容不容易,偽原創又怕不被當成原創,白做。那麼我們先從搜尋引擎角度去如何判定內容是原創還是抄襲。很多站長都想利用原創內容來提高自己 的收錄與排名,但是做原創內容並不是一件容易的事,偶爾一兩篇應該還行,要是一天一兩篇,很多多人也是受不了,因為大多...