搜尋引擎檢索系統概述

2022-09-25 10:12:14 字數 758 閱讀 9028

程式設計驛站(www.cppcns程式設計客棧.com)10月28日訊息  今日百度站長平台lee發布文章介紹了搜尋引擎索引系統的大概工作流程。主要包括:query串切詞分詞,查出含每個term的文件集合,求交,**過濾,按需進行最終排序。

前面簡要介紹過了搜尋引擎的索引系統,實際上www.cppcns.com在建立倒排索引的最後還需要有乙個入庫寫庫的過程,而為了提高效率這個過程還需要將全部term以及偏移量儲存在檔案頭部,並且對資料進行壓縮,這涉及到的過於技術化在此就不多提了。今天簡要給大家介紹一下索引之後的檢索系統。

檢索系統主要包含了五個部分,如下圖所示:

(1)query串切詞分詞即將使用者的查詢詞進行分詞,對之後的查詢做準備,以「10號線地鐵故障」為例,可能的分詞如下(同義詞問題暫時略過):

10  0x123abc

號   0x13445d

線   0x234d

地鐵 0x145cf

故障 0x354df

(2)查出含每個term的文件集合,即找出待選集合,如下:

0x123abc   1  2 3  4  7  9…..

0x13445d   2  5 8  9  10  11……

(3)求交,上述求交,文件2和文件9可vndgg能是我們需要找的,整個求交過程實際上關係著整個系統程式設計客棧的效能,這裡面包含了使用快取等等手段程式設計客棧進行效能優化;

(4)各種過濾,舉例可能包含過濾掉死鏈、重複資料、色情、垃圾結果以及***;

本文標題: 搜尋引擎檢索系統概述

本文位址:

搜尋引擎索引系統概述(一)

程式設計驛站 www.cppcns.com 10月21日訊息 今日,站長平台lee撰文介紹了索引系統的相關問題概述。羅列出了如何能夠在最快的速度內返回使用者查詢結果,從而提高使用者體驗度的相關資訊。搜尋引擎索引系統概述 一 原文如下 眾所周知,搜尋引擎的主要工作過程包括 抓取 儲存 頁面分析 索引 ...

搜尋引擎概述

對資訊檢索的評價 準確率和召回率。準確率,precision 檢索出來的文件中,相關文件所佔比例。召回率,recall 全部相關文件中,被檢索出來的文件的比例。垂直搜尋,vertical search 針對某一主題 行業 應用 的特殊搜尋。評價 使用者與操作引擎互動的日誌是很有價值的資訊源。doc ...

搜尋引擎檢索技術

謝海勸 如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系...