!!!!搜尋引擎設計實用教程 以百度為例

2021-04-21 13:57:42 字數 810 閱讀 3076

之一:查詢處理以及分詞技術

中科院軟體所 張俊林

2023年11月

隨著搜尋經濟的崛起,人們開始越加關注全球各大搜尋引擎的效能、技術和日流量。作為企業,會根據搜尋引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網民,會根據搜尋引擎的效能和技術來選擇自己喜歡的引擎查詢資料;作為技術人員,會把有代表性的搜尋引擎作為研究物件. 搜尋引擎經濟的崛起,又一次向人們證明了網路所蘊藏的巨大商機。網路離開了搜尋將只剩下空洞雜亂的資料,以及大量等待去費力挖掘的金礦。

我們分兩個部分來講述:查詢處理/中文分詞.

一.   查詢處理

1.       假設使用者提交了不只乙個查詢串,比如」資訊檢索 理論 工具」.那麼搜尋引擎首先做的是根據分隔符比如空格,標點符號,將查詢串分割成若干子查詢串,比如上面的查詢就會被解析為:《資訊檢索,理論,工具》三個子字串;這個道理簡單,我們接著往下看.

接著該幹什麼呢?該考慮分詞的問題了.

二.   中文分詞

首先查詢專用詞典(人名,部分地名等),將專有名稱切出,剩下的部分採取雙向分詞策略,如果兩者切分結果相同,說明沒有歧義,直接輸出分詞結果.如果不一致,則輸出最短路徑的那個結果,如果長度相同,則選擇單字詞少的那一組切分結果.如果單字也相同,則選擇正向分詞結果..

之二:spelling checker拼寫檢查錯誤提示(以及拼音提示功能)

中科院軟體所 張俊林

2023年11月

中科院軟體所 malefactor

2023年11月

另外,google也是採用正向最大匹配分詞演算法,不過好像沒有那個專用詞典,所以很多專名都被切碎了.

搜尋引擎設計實用教程 4 以百度為例

搜尋引擎設計實用教程 4 之四 相關提示功能 中科院軟體所 malefactor 2005年11月 問題二.搜尋引擎拿到使用者的查詢比如 大長今 使用者查詢log裡面有成千上萬的不同查詢,那麼選擇哪些作為提示呢?這裡面牽涉到乙個字串相似性計算的過程.第二步,怎麼計算相似性並排序輸出呢?如果使用者輸入...

搜尋引擎設計實用教程 5 以百度為例

之五 cache結構 中科院軟體所張俊林 2006年1月4日 cache是目前實用的搜尋引擎都必備的功能,因為研究表明使用者的查詢有相當比例 30 40 是重複的,而且大多數重複的使用者查詢會在較短的間隔時間被再次重複訪問.比如說目前 芙蓉姐姐 成為街頭巷議的美談,那麼不僅張三想搜尋 芙蓉姐姐 王二...

引入百度,GOOGLE的搜尋引擎

搜尋 input type hidden name domains value 這裡輸入你的 位址 input type radio name sitesearch value 全球搜尋 input type radio name sitesearch value 這裡輸入你的 位址 checked...