讀《數學之美》第四章談談分詞

中文分詞其實有點像古代的句讀（dou），韓愈的《師說》中就有：「彼童子之師，授之書而習其句讀者也」。古人文章是沒有標點符號的，行文一氣呵成。如果不懂離經斷句，就很難理解古文的意思。從某種程度上，句讀就類似今天要講的中文分詞。

北京航空航天大學的梁南元教授提出了查字典的方法

查字典的方法就是把句子從左到右掃瞄一遍，遇到字典裡有的詞就標示出來，遇到不認識的字串就分割為單字詞。如果分割出的詞與後面的字不會組成更長的詞，那麼分割點就最終確定了。這種最簡單的方法可以解決七八層以上的分詞問題，在不太複雜的前提下，取得了還算滿意的效果。

20世紀80年代哈爾濱工業大學的王曉龍博士將查字典的方法理論化，發展成最少詞數的分詞理論，即一句話應該分成數量最少的詞串。但是並非所有最長匹配都是正確的，語言的歧義性是分詞的最大難題。

2023年清華電子工程系的郭進博士率先使用統計語言模型成功解決分詞二義性問題，將漢語分詞錯誤率降低了乙個數量級。最為簡單的思考是有n中分詞所得，統計各種分詞結果出現的概率，選擇最大概率的分詞結果作為最好的分詞方法。這裡有乙個實現技巧，如果窮舉所有分詞結果，顯然會導致計算量大增。因此，可以看成乙個動態規劃問題，利用維特比演算法快速找到最佳分詞。這樣就可以構造分詞器：輸入字串，輸出分詞字串，中間需要詞典和語言模型作為輔助。

清華大學郭茂松教授解決了沒有詞典時的分詞問題；香港科技大學吳德凱教授較早將中文分詞方法用於英文片語的分割，並將英文片語和中文片語在機器翻譯時對應起來。

另外，對於平板電腦和智慧型手機的出現，英文手寫體中的分詞常常是需要的，因此，中文分詞方法可以幫助判別英語單詞的邊界。

衡量分詞的結果可以採用分詞的一致性；人工分詞產生的原因主要在於人們對詞的顆粒度認識問題。解決辦法可以構建乙個基本詞表和複合詞表，不斷豐富完善複合詞表，會將分詞器的明顯錯誤得以改進。

************************

2015-8-7

讀《數學之美》第四章談談分詞

《數學之美》第四章個人筆記

《數學之美》第四章個人筆記

具體數學第四章總結

讀《數學之美》第四章 談談分詞

《數學之美》 第四章 個人筆記

《數學之美》 第四章 個人筆記

具體數學 第四章總結

相關推薦

讀《數學之美》第四章談談分詞

《數學之美》第四章個人筆記

《數學之美》第四章個人筆記

具體數學第四章總結