更新詞彙至Unigram詞表進行識別

在語言模型目錄（及與dmp模型和dict詞典檔案相同的目錄）下新增乙個文字檔案，如new_dict.txt，對於需要新增的詞彙只需要手動加入到new_dict.txt中，一行乙個詞及音元序列，如

守波 sh ou b o

賴守波 l ai sh ou b o

同時需要在詞典和模型處理的源**檔案中，新增對new_dict.txt進行處理的**：

在詞典的建立過程中，需要讀取new_dict.txt檔案，並將詞語和音元序列進行對應，這裡需要注意的是音元必須是70個基本音元之一，同時詞語不能有重複；

在模型的建立過程中，可優先讀出new_dict.txt檔案中的詞語數目，並自動丟棄原模型檔案中5000個詞語中與新詞彙相同數目的詞語。

這樣，則在執行時進行了對詞典和模型檔案的自動更新，並且我們需要測試新的詞彙時，只需要手動新增到new_dict.txt檔案中一次即可，便可看到識別效果。

目前的測試結果仍是基於修改unigram詞表，更進一步的是，需要對bigram和trigram詞表進行分析及更新，這樣既能節省詞表空間，同時結合hmm模型使識別結果更精確。

網際網路新詞彙與新概念

主題網際網路新詞彙與新概念收藏盒 1 nofollow的倫理問題有一種觀點認為，大量來自外部的鏈結，推高了wikipedia的pagerank，wikipedia卻拒絕平等地鏈結其他這讓wikipedia成了乙個只進不出的不道德的黑洞。有人報復性地開發了乙個wordpress的外掛程式，它會...

在語言模型檔案中更新詞彙以提高識別正確率

完成cmu sphinx toolkit到unicode的移植後，由於其自身支援的中文詞彙太少且過於簡單，實際生活中的很多詞彙無法識別，由於其缺少開發文件，只能在跟蹤的過程裡心煩了。於是想，肯定需要在詞典檔案中增加新詞彙吧，如果其本身是按照ciphone序列進行識別的話，應該就能識別出新詞彙。後來...

更新詞彙至Unigram詞表進行識別

網際網路新詞彙與新概念

在語言模型檔案中更新詞彙以提高識別正確率

相關推薦