搜尋引擎是如何評估網頁內容優劣的

2021-07-25 20:44:28 字數 1117 閱讀 1562

雖然搜尋引擎現在越來越趨向於智慧型化的發展,越來越懂得搜尋者究竟想要的是什麼,但它終究還是一台機器,而任何機器都是要遵循一定的演算法比較,才能得出結果,那麼搜尋引擎是通過哪些判斷來確定數萬億網頁資料的關係和相關度匹配的呢?

web網路的網頁資料是非常龐大的,搜尋引擎雖然不能乙個乙個的去計算每乙個網頁,但是可以很明確的知道哪個**的資料最權威,就像你知道美國雖然有幾億人口,不可能認識每乙個人,但是你很容易就知道美國的**是歐巴馬,美國有華盛頓州,而web網路是通過無數條鏈結(url)所建立的,每乙個**都要接入web網路中, 搜尋引擎蜘蛛通過一批最權威的**開始抓取,沿著與這些網頁建立的關係的url抓取網路上的網頁,由於網際網路上的資料太過於龐大,所以搜尋引擎不可能抓取到每乙個角落,所以與權威**建立鏈結關係非常重要,這與人際關係的建立有相似之處,你可以想象一下如果歐巴馬提起了你的名字,並加以誇張,那麼你的權威度也會很快的提公升。(我們下期介紹,如何更好的建立鏈結關係)。

搜尋引擎通過鏈結的關係發現並索引到你的**,但是這只是第一步,它還要對你的**進行詳細的了解,通過文件的分析和語義的聯絡來確定你**的質量,最後在確定是否做相關性的推送。

按照道理說機器是不知道南鑼鼓巷是和北京這個地名聯絡起來的,所以語義分析起到了至關的作用,搜尋引擎會主動的構建自己的同義詞庫和詞典,幫助它們確定某些詞和主題之間的關聯,通過掃面自己龐大的web資料庫,搜尋引擎會利用模糊集合理論和某些公式將詞語聯絡起來,開始像人類一樣理解網頁和**。

web中的大量人類知識可以在系統的所以中獲得,並從中分析人類已經建立的聯絡,因此,機器能夠通過掃瞄所以中出現的比如」香蕉」和「蘋果」,因為「圓形」和「香蕉」不經常同時出現,而「圓形」和「蘋果」會常常出現,從而確定蘋果是圓的,而香蕉不是圓的。機器利用這樣的模糊邏輯集合理論幫助計算機通過度量兩個詞同時出現的頻率和語境,就能理解兩個詞的相關性,通過對幾十億個各種網頁的研究,搜尋引擎能夠學習到哪些詞是相關的,哪些是概念之間相互有相互聯絡。

搜尋引擎分析文件的可讀性,通過考慮文件內容的平均單詞長度和句子中單詞數量以及在語法上的錯誤比例來度量***壞,比如說一篇文章非常短,並且不是在權威的**傳送,還有許多語法上的錯誤,有好很多專業術語,而並沒有做過多的解釋,那麼這篇文章就會被判定為編輯工作質量非常差,因為這篇文件對於大多數知識水平一般的人來說是及其難懂的。

多公尺諾設計官網:www.duomiluo.net

搜尋引擎如何監控網頁變化?

但是仍有一些途徑可以優化和改進 2 從效率上考慮,我們不能對所有網頁一視同仁,而應該重點檢查 測試發現,大部分 的網頁變化應該有一定規律的,比如首頁和論壇列表頁等容易發生變化,但老新聞內容頁可能幾年都不會發生變化 只要把經常變的給揪出來,變化內容就順便發現了,那麼怎麼跟蹤這些變化呢?可以記錄每個ur...

搜尋引擎如何去抓取網頁

搜尋引擎看似簡單的抓取 入庫 查詢工作,但其中各個環節暗含的演算法卻十分複雜。搜尋引擎抓取頁面工作靠蜘蛛 spider 來完成,抓取動作很容易實現,但是抓取哪些頁面,優先抓取哪些頁面卻需要演算法來決定,下面介紹幾個抓取演算法 1 寬度優先抓取策略 我們都知道,大部分 都是按照樹狀圖來完成頁面分布的,...

搜尋引擎是如何工作的

當我們在搜尋引擎上鍵入片語進行搜尋時可能並沒有想過,它是如何把我們想要的資料在那麼短的時間內找出來。事實上幾乎所有的搜尋引擎都會有下列的功能以保證它能夠又好又快的為我們提供資料。1,爬行整個web crawling web 搜尋引擎自動執行的程式通過web的超級鏈結 hyperlink 結構爬行整個...