蕭涵 略談百度中文分詞技術

2022-10-05 18:42:19 字數 1303 閱讀 6745

了解搜尋引擎分詞技術對於我們的seo工作有著重大的意義,不管是我們的關鍵詞布局還是鏈結架構,都跟分詞有莫大的關聯。這裡蕭涵給大家談下一百度的中文分詞(當然也不侷限於百度,其他搜尋引擎也是差不多的)。本文分兩個部分,首先是摘取已有的關於分詞的解釋,另外再加入我自己對分詞的擴充套件思路。

什麼是中文分詞?

我們都知道,英文句子都是由乙個乙個單詞按空格分開組成,所以在分詞方面就方便多了,但我們中文是乙個乙個漢字連線而成,所以相對來說是比較複雜的。中文分詞指的是將乙個漢語句子切分成乙個乙個單獨的詞,按照一定的規則重新組合成詞序列的過程。這個也稱做「中文切詞」。

分詞對於搜尋引擎有著很大的作用,是文字挖掘的基礎,可以幫助程式自動識別語句的含義,以達到搜尋結果的高度匹配,分詞的質量直接影響了搜尋結果的精確度。目前搜尋引擎分詞的方法主要通過字典匹配和統計學兩種方法。

一、基於字典匹配的分詞方法

這種方法首先得有乙個超大的字典,也就是分詞索引庫,然後按照一定的規則將待分詞的字串與分詞庫中的詞進行匹配,若找到某個詞語,則匹配成功,這種匹配有分以下四種方式:

1、正向最大匹配法(由左到右的方向);

2、逆向最大匹配法(由右到左的方向);

3、最少切分(使每一句中切出的詞數最小);

4、雙向最大匹配法(進行由左到右、由右到左兩次掃瞄)

通常,搜尋引擎會採用多種方式組合使用。但這種方式也同樣給搜尋引擎帶來了難道,比如對於歧義的處理(關鍵是我們漢語的博大精深啊),為了提高匹配的準確率,搜尋引擎還會模擬人對句子的理解,達到識別詞語的效程式設計客棧果。基本思想就是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象。通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和資訊,當然我們的搜尋引擎也在不斷進步。

二、基於統計的分詞方法

雖然分詞字典解決了很多問題,但還是遠遠不夠的,搜尋引擎還要具備不斷的發現新的詞語的能力,通過計算詞語相鄰出現的概率來確定是否是乙個單獨的詞語。所以,掌握的程式設計客棧上下文越多,對句子的理解就越準確,分詞也越精確。舉個例子說,「搜尋引擎優化」,在字典中匹配出來可能是:搜尋/引擎/優化、搜/索引/擎/優化,但經過後期的概率計算,發現「搜尋引擎優化」在上下文相鄰出現的次數非常多,那麼基於統計就會將這個詞語也加入進分詞索引庫。

中文分詞的應用

分詞準確性對搜尋引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對於搜尋引擎來說也是不可用的,因為搜尋引擎需要處理數以億計的網頁,如果分詞耗用的時間過長,會嚴重影響搜尋引擎內容更新的速度。因此對於搜尋引擎來說,分詞的準確性和速度,二者都需要達到很高的要求。

百度中文分詞如何分詞

可能對於seo新手來說,不會中文分詞就會損失一部分的xhbphue流量。而中文分詞就是把詞按照一定的規格,將乙個長尾詞分割成幾個部分,從而概括一段話的主要內容。在中文分詞中,強調的是 一 字串匹配的分詞方法。我們需要有一定的字串做基礎,就是一段詞用字元分開,比如標點符號,空格等。才能夠進行分詞匹配,...

分析百度的中文分詞結果

本結果是基於 20000 本分析結果也是無意得到的。www.sj110.com 搜價110 是handsome man eunge 帶領下的乙個專案,因我是 pwqzc mm雞渴難耐,於是和那個送水的漢子發生了不該發生的事,呵呵,都是撞上的。下面是我的一些分析結果,凡是我可以肯定的,我都註明了。12...

百度分詞演算法分析

隨著搜尋經濟的崛起,人們開始越加關注全球各大搜尋引擎的效能 技術和日流量。作為企業,會根據搜尋引擎的知名度以及日流量來選擇是否要投放廣告等 作為普通網民,會根據搜尋引擎的效能和技術來選擇自己喜歡的引擎查詢資料 作為技術人員,會把有代表性的搜尋引擎作為研究物件。搜尋引擎經濟的崛起,又一次向人們證明了網...