更新詞彙至Unigram詞表進行識別

2021-05-26 07:36:44 字數 538 閱讀 4741

在語言模型目錄(及與dmp模型和dict詞典檔案相同的目錄)下新增乙個文字檔案,如new_dict.txt,對於需要新增的詞彙只需要手動加入到new_dict.txt中,一行乙個詞及音元序列,如

守波 sh ou b o

賴守波 l ai sh ou b o

同時需要在詞典和模型處理的源**檔案中,新增對new_dict.txt進行處理的**:

在詞典的建立過程中,需要讀取new_dict.txt檔案,並將詞語和音元序列進行對應,這裡需要注意的是音元必須是70個基本音元之一,同時詞語不能有重複;

在模型的建立過程中,可優先讀出new_dict.txt檔案中的詞語數目,並自動丟棄原模型檔案中5000個詞語中與新詞彙相同數目的詞語。

這樣,則在執行時進行了對詞典和模型檔案的自動更新,並且我們需要測試新的詞彙時,只需要手動新增到new_dict.txt檔案中一次即可,便可看到識別效果。

目前的測試結果仍是基於修改unigram詞表,更進一步的是,需要對bigram和trigram詞表進行分析及更新,這樣既能節省詞表空間,同時結合hmm模型使識別結果更精確。

網際網路新詞彙與新概念

主題 網際網路新詞彙與新概念 收藏盒 1 nofollow的倫理問題 有一種觀點認為,大量來自外部的鏈結,推高了wikipedia的pagerank,wikipedia卻拒絕平等地鏈結其他 這讓wikipedia成了乙個只進不出的不道德的黑洞。有人報復性地開發了乙個wordpress的外掛程式,它會...

在語言模型檔案中更新詞彙以提高識別正確率

完成cmu sphinx toolkit到unicode的移植後,由於其自身支援的中文詞彙太少且過於簡單,實際生活中的很多詞彙無法識別,由於其缺少開發文件,只能在 跟蹤的過程裡心煩了。於是想,肯定需要在詞典檔案中增加新詞彙吧,如果其本身是按照ciphone序列進行識別的話,應該就能識別出新詞彙。後來...