淺述搜尋引擎的兩種分詞演算法

2022-10-05 19:45:22 字數 976 閱讀 3605

21世紀網際網路的快速發展讓人們生活越來越便利,當日益劇增的海量資訊讓我們眼花繚亂時,搜尋引擎的出現可以讓我們快程式設計客棧速找到自己想要的答案。因此多了解搜尋引擎的分詞演算法,可以讓**在搜尋引擎上獲得更好的展現機會。在講解中文分詞技術www.cppcns.com之前,先來了解下全文檢索技術。

全文檢索技術

全文檢索是指索引程式掃瞄文章中的每個詞並建立對應索引,記錄該詞出現的位置和次數。當通過搜尋引擎查詢時,檢索程式就在記錄的索引進行查詢並返回給使用者。全文檢索又分為基於字www.cppcns.com的全文索引和基於詞的全文索引。基於字的全文索引會對內容中的每個字建立索引並記錄,此方法查全率高,但查準率低,特別是對於中文,有時搜尋馬克,會列出馬克思的結果。基於詞的全文索引是把乙個詞語作為乙個單位進行索引記錄,並能處理同義詞。搜尋引擎有自己的詞庫,當使用者搜尋時,搜尋引擎會從詞庫中抽取關鍵詞作為索引項,這樣可以大大提高檢索的準確率。

中文分詞技術

一直以來大家都比較熟悉百度,百度有自己的中文分詞技術。一般採用的包括正向最大匹配,反向最大匹配,最佳匹配法,專家系統方法等。其中最大正向匹配是最常用的分詞解決方案,它採用機械式演算法,通過建立詞典並進行正向最大匹配對中文進行分詞。舉個簡單的例子比如搜尋「北京大學在**」,則返回結果很多都是包含北京大學,北大等詞語的網頁,搜尋引擎就是採用正向最大匹配去判斷,把北京大學當做乙個詞語來索引記錄並返回。當然,正向最大匹配也有不完整性,比如長度過長的詞語,搜尋引擎有時無法準確的分詞,或者對前後都相互關聯的詞無法準確分詞。例如「結合成分子時」,會被返回結合、成分、子時,而有時我們想要的關鍵詞是「分子」。

很多時候百度都會根據自己詞庫中詞語的權重進行拆分,權重的計算基於生活各個方面,比較複雜,搜尋引擎要做的就是返回使用者最想要的結果,有時站長們做**要站在使用者的角度去考慮問題,其實這也是站在搜尋引擎的角度考慮問題,不論在確定目標關鍵詞或者是長尾關鍵詞時,都可以根據中文分詞的原理來選擇,這樣可以最大化的減少無用功。

bfdachill分詞原理不斷在變化,不斷在更新,我們應該繼續學習,只有掌握了本質才能抓住實質。

搜尋引擎分詞演算法介紹

原文 http sf.hit.edu.cn bbs read.php?fid 1 tid 52 fpage 1 搜尋引擎分詞演算法介紹 自動分詞是基於字串匹配的原理進行的 所謂自動分詞方法,指的是漢字字串匹配 的進行方式。1.最大匹配法 亦稱mm法 其基本思想是這樣的,假設自動分詞詞典 或詞庫 中的...

部落格搜尋引擎列舉 部落格搜尋引擎的淺比較

部落格搜尋引擎列舉 部落格搜尋引擎的淺比較 今天突然想使用 部落格搜尋引擎 所以找到啦這篇在譯言翻譯的文章。o o.特點 推送新文章較快 部落格搜尋引擎的目的在於索引部落格 並顯示一些可以在feed裡輕易找到的資訊,像文章日期 作者或該文章所標記的所有tag。不像web搜尋引擎,部落格搜尋引擎要爬的...

一種模糊查詢,應用搜尋引擎的分詞機制

說明工作原理 例子 對於查詢 我可以理解你嗎 拆分為 我可 可以 以理 理解 解你 你嗎 查詢到兩個符,則權值加上相應的值 我可 1,可以 2,以理 3,理解 4,解你 5,你嗎 6.以下為mysql的儲存過程 create definer root localhost procedure proc...