語音識別聲學模型（GMM HMM）

本文主要講解一下gmm-hmm演算法聲學模型的大概思路！~~~

聲學模型的目的是將經mfcc提取的所有幀的特徵向量轉化為有序的音素輸出。概述如下：

我們都知道hmm模型裡面有隱含狀態概念。我們需要弄明白音素hmm模型的隱含狀態與乙個音素之間的關係，通常乙個音素含有3到5個狀態，如果乙個包含代表乙個音素的hmm模型有3個狀態（1,2,3,4,5），在對應乙個音素的狀態序列可以有1122333455（共10幀），序列的狀態數可以大於實際定義的hmm狀態數，更具體的可以舉例如下，

假如音素ah，每一幀用乙個狀態表示，但是連續多幀可以同屬於乙個狀態，如下圖所示，1-6幀同屬於乙個狀態s1029，7-10幀同屬於狀態s124，11-16幀同屬於狀態s561：

gmm的作用：gmm主要是為了得到hmm求解過程的發射概率。

hmm的作用：就是根據各個概率得到最優的音素，單詞以及句子序列！~~~

音素hmm模型

句子的hmm模型也就是將所有的音素hmm狀態進行串聯起來。

貼個圖，大家可以看一下

~~~現在大多數識別都採用三音素模型！~~~

隨著神經網路的普及以及gpu的高效能，dnn-hmm聲學模型估計將成為主流！~~~

具體gmm-hmm理論以及訓練識別過程將在以後的文章裡介紹！~~~

GMM HMM語音識別

現在假設知道了hmm模型中的乙個狀態比如，孤立此識別中，這裡乙個狀態代表乙個詞對應的k個多維高斯的所有引數，則該gmm生成該狀態該詞上某乙個觀察向量的概率就出來了，即，知道了某個孤立詞對應的k個高斯模型的所有引數，那麼，就可以計算一幀觀測值對於該詞的概率。以下是文獻中提到的機器學習資料...

語音識別 gmm hmm思考

簡單回顧一下今天所看的內容 gmm hmm pdf 概率密度函式，在這裡可以由gmm來估計，同樣也可以用dnn來估計。gmm 高斯混合模型，單高斯函式，多高斯函式。能擬合任何函式，這裡會涉及到均值方差等變數語音有短時平穩的特性，可以用高斯混合模型來估計從而就會有概率密度函式。hmm 隱馬爾科夫模...

語音識別之 GMM HMM

gmm，gaussian mixture model，gmm，高斯混合模型。資料往往不知道是哪個高斯分布，這給gmm的引數初始化帶來困難。所有聚類演算法都可用於此，常用的有k means lbg等。模型自適應，由於各地口音，採集裝置，環境雜訊等因素的差異，已訓練過的gmm hmm很可能和新領域的測試...

語音識別 聲學模型（GMM HMM）

GMM HMM語音識別

語音識別 gmm hmm思考

語音識別 之 GMM HMM

相關推薦

語音識別聲學模型（GMM HMM）

語音識別之 GMM HMM