衡量搜尋引擎的效能

2021-04-06 16:08:38 字數 585 閱讀 8201

我們可以將web資訊的搜尋看作乙個資訊檢索問題,即在由web網頁組成的文件集中檢索出與使用者查詢相關的文件.所以我們可以用衡量傳統資訊檢索系統的效能引數一查全率(recall)和查準率(precision)–來衡量乙個搜尋引擎的效能。

查全率是檢索出的相關文件數和文件集中所有的相關文件數的比率.衡量的是檢索系統(搜尋引擎)的查全率;

查準率是檢索出的相關文擋數與檢索出的文件總數的比率.衡最的是檢索系統(控索引擎)的查準率.對於乙個檢索系統來講.

查全率和查準率不可能兩全其美:查全率高時.查準率低;查準率高時,查全率低.所以常常用11種查全率下11種查準率的平均值(即11點平均查準率)來衡量乙個檢索系統的查準率.對於搜尋引擎系統來講,因為對於乙個查詢總能返回很多資訊.所以查全率一般不成問題;加之.沒有乙個搜尋引擎系統能夠蒐集到所有的web同頁·查全率很難比較,所以衡量搜尋引擎的效能時.查全率很少使用.目前的搜尋引擎系統都非常關心查準率.即是否為使用者提供了相關度報高的、高質量的導航資訊.

影響乙個搜尋引擎系統的效能有很多因素.最主要的是資訊蒐集策略和檢索模型,包括索引庫的更新頻率和策略、文件和查詢的表示方法、評價文件和使用者查詢相關性的匹配策略,查詢結果的排序方法和使用者進行相關度反饋的機制.

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

MySQL搜尋引擎程式 mysql搜尋引擎

mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...

lycos搜尋引擎 常用的搜尋引擎都有哪些特點?

1 基於字詞結合的資訊處理方式,巧妙解決了中文資訊的理解問題,極大地提高了搜尋的準確性。2 智慧型相關度演算法。採用了基於內容和基於超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的資訊,從而最大限度保證了檢索結果相關性。4 智慧型性 可擴充套件的搜尋技術保證最快最多的收集網際網路資訊。擁...