中文分詞的方法

中文分詞主要有兩個類別：本別是基於字詞典分詞演算法和基於統計的機器學習演算法，下面依次介紹這兩種方法。

也稱字串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字串和乙個已建立好的「充分大的」詞典中的詞進行匹配，若找到某個詞條，則說明匹配成功，識別了該詞。常見的基於詞典的分詞演算法分為以下幾種：正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。

基於詞典的分詞演算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字串匹配方法進行優化，比如最大長度設定、字串儲存和查詢方式以及對於詞表的組織結構，比如採用trie索引樹、雜湊索引等。

這類目前常用的是演算法是hmm、crf、深度學習等演算法，其本質是序列標註，比如stanford、hanlp分詞工具是基於crf演算法。以crf為例，基本思路是對漢字進行標註訓練，不僅考慮了詞語出現的頻率，還考慮上下文，具備較好的學習能力，因此其對歧義詞和未登入詞的識別都具有良好的效果。

分詞標準：比如人名，在哈工大的標準中姓和名是分開的，但在hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標準。

歧義：對同乙個待切分字串存在多個分詞結果。

新詞：也稱未被詞典收錄的詞，該問題的解決依賴於人們對分詞技術和漢語語言結構的進一步認識。