語音識別筆記（一）簡介與高斯混合模型

黃學東老師那本太厚了。。。自己根據需要先四處蒐集學習吧～

自動語音識別(automatic speech recongnition， asr)技術時使人與人。人與機器交流的關鍵技術，它將聲學波形轉換為人類的文字。

乙個語音對話系統通常包括四個主要組成部分的乙個或多個，即語音識別系統將語音轉化為文字，語義理解系統提取使用者說話的語義資訊、文字轉換系統將內容轉化為語音、對話管理系統連線其他三個系統並完成與實際場景的溝通。

![語音對話系統][hc]( 語音識別系統主要有圖2中的四部分組成，訊號處理和特徵提取、聲學模型（am）、語言模型（lm）和解碼搜尋部分。訊號處理和特徵提取部分以音訊訊號為輸入，通過消除雜訊和通道失真對語音進行增強，將訊號從時域轉化到頻域，並為聲學模型提取合適的特徵向量。聲學模型將聲學和發音學（phonetics）進行整合，以特徵向量作為輸入，並為可變長特徵序列生成聲學模型分數。語言模型學習詞與詞間的相互關係，來評估序列的可能性。解碼搜尋對給定特徵向量序列和若干假設次序列計算聲學模型和語言模型分數，並輸出得分最高的結果。聲學模型的兩個主要問題為特徵向量序列可程式設計和音訊訊號的豐富變化性。前者可通過動態時間規整（dtw）或hmm解決。在過去，最流行的語音識別系統採用mfcc或rasta-plp作為特徵向量，使用gmm-hmm作為聲學模型。採用最大似然準則、序列鑑別性訓練演算法（mce、mpe）等進行訓練。現在流行的是分層鑑別性模型如深度神經網路模型。

![這裡寫描述](

隨機變數可分為離散型隨機變數, 連續型隨機變數或混合型隨機變數.如果連續型隨機變數x的概率密度是

那麼它是服從正態分佈或高斯分布的.

乙個標量連續隨機變數x服從混合高斯分布，如果它的概率密度函式為:

其中:

混合權重和為1，即:

混合高斯模型可以描述多模態性質的物理資料（如語音資料）。推廣到多變數的多元混合高斯分布，其聯合概率密度函式可寫為：

在實際計算中，若使用全協方差矩陣（非對角）將引入大量引數（約為mxd^2)，因此可以使用對角協方差矩陣，當m很大時，亦可以限制所有的協方差矩陣為相同矩陣。

對於多元混合高斯分布的引數估計即根據符合混合高斯分布的資料來確定模型引數的取值。此處主要介紹最大值期望演算法（em演算法），它可以作為最大似然準側估計方法的代表。em演算法是在給定確定數量的混合分布成分情況下去估計各個分布引數最通用的方法。

該演算法分為兩個階段，e階段為期望計算階段，m為最大化階段，針對高斯混合分布的em演算法引數更新公式為：

由上可以看出，這些公式本質上是對整個取樣資料的加權平均的均值和協方差。

原始的語音資料經過短時傅利葉變換或取倒譜後會成為特徵序列，在忽略時序資訊的條件下，gmm就非常適合擬合這樣的語音特徵。因此，gmm被整合進hmm中，用來擬合基於狀態的輸出分布。但若包含語音順序資訊的話，gmm就不再是乙個好模型，因為它不包含任何順序資訊。若當給定hmm的乙個狀態後，若要對屬於該狀態的語音特徵向量的概率分布進行建模，gmm仍不失為乙個好的模型。

語音識別筆記（一）簡介與高斯混合模型

樹莓派語音識別（一）我的想法與計畫

Elasticsearch筆記一之簡介與安裝

Git 學習筆記《簡介與安裝》一

語音識別筆記（一）簡介與高斯混合模型

樹莓派語音識別（一）我的想法與計畫

Elasticsearch筆記一之簡介與安裝

Git 學習筆記《簡介與安裝》 一

相關推薦

Git 學習筆記《簡介與安裝》一