中文分詞方法的基本方法和持續改進的思路

目前中文分詞方法基本採用基於詞典，輔助規則的方法。

通常採用一種基本的分詞方法，處理之後對結果進行規則處理，歧義消解。

在實際中需要注意以下幾點，改善分詞質量

（1）地名的識別和處理

（2）人名的識別和處理（和地名不同，人名的難點是無法做得將所有人民作為詞典中的詞來儲存）

（3）數字（含中文數字），頁碼等的識別

（4）詞性識別，語氣詞，助詞等

（5）分詞出現單字的處理

對於這些特殊的規則，舉若干例子

南京市長江大橋，則可能有[南京][市長][江大橋]和[南京市][長江大橋]兩種看上去均合理的切分法。

但如果引入的地名識別，則可以較容易的處理這種情況。

計畫在30日後開始，則可能有[計畫][在][30][日後][開始]和[計畫][在][30日][後][開始]兩種分法。

但30這個量詞的單位必然和30連線，因此日後的分法不妥當。

分詞的好壞對最終的索引，查詢的結果有很大影響，往往有些好的結果無法搜尋出，正是由於分詞的原因。

持續改進分詞的思路基本如下：

（1）確定一類問題，通過規則來準確識別這一類問題。

（2）將這一類問題單獨調優，而不影響其餘分詞效果。

這相當於從分詞的大問題中，劃分出需要解決的子問題，進而確定解決子問題的方法，周而復始。

在此過程中，乙個人工正確分詞的語料庫則尤為關鍵，從而不斷地能衡量分詞水平的提公升。

中文分詞的方法

中文分詞主要有兩個類別本別是基於字詞典分詞演算法和基於統計的機器學習演算法，下面依次介紹這兩種方法。也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的充分大的詞典中的詞進行匹配，若找到某個詞條，則說明匹配成功，識別了該詞。常見的基於詞典的分詞演算法分為以下幾種正向...

中文分詞方法簡介

中文與西方文字不同，西方文字如英文的單詞間有空格作為分隔，計算機很容易把乙個個詞分開。而中文句子裡的之間沒有分隔，要把中文句子拆分成詞就需要使用中文分詞技術。由於全文索引採用的是倒排索引技術，所以分詞的效果直接決定了搜尋的效果。目前的中文分詞技術主要有 n元切分最長匹配最大壓縮統計語言模型等方...

常用中文分詞方法

一正向最大匹配fmm 從左到右將待分詞文字中的最多個連續字元與詞表匹配，如果匹配上，則切分出乙個詞。二逆向最大匹配從右到左將待分詞文字中的最多個連續字元與詞表匹配，如果匹配上，則切分出乙個詞。三雙向最大匹配正向最大匹配演算法和逆向最大匹配演算法如果兩個演算法得到相同的分詞結果，那就認為是...

中文分詞方法的基本方法和持續改進的思路

中文分詞的方法

中文分詞方法簡介

常用中文分詞方法

相關推薦