中文分詞方法介紹

2021-09-13 08:29:20 字數 542 閱讀 2427

中文分詞的基本方法可以分為基於語法規則的方法、基於詞典的方法和基於統計的方法。

基於語法規則的分詞法基本思想是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來進行詞性標註,以解決分詞歧義現象。因為現有的語法知識、語法規則十分籠統、複雜,基於語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意,目前這種分詞系統應用較少。

基於詞典的方法中,可以進一步分為最大匹配法、最大概率法、最短路徑法等。最大匹配法指的是按照一定順序選區字串中的若干個自當做乙個詞,去字典中查詢。根據掃瞄方式可細分為:正向最大匹配、反向最大匹配、雙向最大匹配、最小切分。最大概率法指的是乙個待切分的漢字串可能包含多種分詞結果,將其中概率最大的那個座位該字串的分詞結果。最短路徑法指的是在詞圖上選擇一條詞數最少的路徑。

基於統計的分詞法的基本原理是根據字串在語料庫**現的統計頻率來決定其是否構成詞。詞是字的組合,相鄰的字出現的次數越多,就越有可能構成乙個詞。因此字與字相鄰共吸納的頻率或概率能夠較好的翻譯它們成為詞的可信度。常用的方法有hmm(隱馬爾科夫模型),maxent(最大熵模型),memm(最大熵隱馬爾科夫模型),crf(條件隨機場)。

中文分詞方法簡介

中文與西方文字不同,西方文字如英文的單詞間有空格作為分隔,計算機很容易把乙個個詞分開。而中文句子裡的之間沒有分隔,要把中文句子拆分成詞就需要使用中文分詞技術。由於全文索引採用的是倒排索引技術,所以分詞的效果直接決定了搜尋的效果。目前的中文分詞技術主要有 n元切分 最長匹配 最大壓縮 統計語言模型等方...

常用中文分詞方法

一 正向最大匹配fmm 從左到右將待分詞文字中的最多個連續字元與詞表匹配,如果匹配上,則切分出乙個詞。二 逆向最大匹配 從右到左將待分詞文字中的最多個連續字元與詞表匹配,如果匹配上,則切分出乙個詞。三 雙向最大匹配 正向最大匹配演算法和逆向最大匹配演算法 如果兩個演算法得到相同的分詞結果,那就認為是...

中文分詞的方法

中文分詞主要有兩個類別 本別是基於字詞典分詞演算法和基於統計的機器學習演算法,下面依次介紹這兩種方法。也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的 充分大的 詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種 正向...