語音識別系統原理介紹 dnn hmm

最近看到乙個asr的課程，很不錯吧。**：大家有時間可以去看下……

接下來就開始說dnn-hmm系統吧。所謂的這個就是把之前gmm這部分換成dnn，基於這個我們可以認為，深度學習模型可以更好的去模擬我們的語音頻號吧。先上個總圖吧：

看到這個圖大家應該都可以很清楚地去理解了。下面分開介紹：

1.特徵部分：一般在深度學習系統裡用filter bank 作為特徵，這個就是在做mfcc時去掉最後二步。在**裡說，這樣得到的效果比mfcc效果好幾個點吧。具體的稍後貼圖 (右圖）。見文章：recent advances in deep learning for speech research at microsoft。

此外，有些人在研究其他的特徵，最多的就是bottleneck feature.這個現在很多人在研究，尋找乙個很多的特徵，肯定會使我們最後的識別率得到提高吧。至於這個 bottleneck feature,稍後貼出幾篇文章。

2.dnn部分：至於深度學習，相信了解的人都知道：從最初的bp演算法，到現在的rbm，dbn，cnn，rnn等等模型。當然，注意的是，語音不在像影象，在做第乙個rbm時應該用 grbm。我們應該用連續的就是高斯了來做這個假設。下面還是繼續貼圖：

這裡的大概是以dbn為框架的，其他的就可以以此類推。具體的實現可以參考kaldi裡的nnet2這部分，在rm和wsj資料上的。

3.hmm部分：這部分跟gmm-hmm一樣。還是弄乙個圖：

最後，上面的右圖就是bottleneck feature的示意圖。

就這樣，似乎不是很好的去理解吧。大家多實踐，多看**。希望對你有用……

語音識別系統原理介紹 dnn hmm

語音識別系統原理介紹 gmm hmm

語音識別系統搭建

PocketSphinx語音識別系統的程式設計

語音識別系統原理介紹 dnn hmm

語音識別系統原理介紹 gmm hmm

語音識別系統搭建

PocketSphinx語音識別系統的程式設計

相關推薦