語音識別實踐第6章總結2

cd-dnn-hmm帶來語音識別效能提公升的三大關鍵因素是：

1)使用足夠深的神經網路；

2）使用一長段的幀作為輸入；

3）直接對三因素進行建模。

1.進行比較和分析的資料集實驗：

a.必應(bing)移動語音搜尋資料集：

資料分為訓練集、開發集、測試集，避免三個集合之間重複。

語言模型：一元片語、二元片語、三元片語。

語言模型混淆度/困惑度：ppl(perplixity），度量語言模型效能。

ppl的計算公式如下：

k表示k元語法。

ppl的數值越小，表明在給定歷史詞序列的情況下產生下乙個詞序列的可能性越高，也就是語言模型越好。一般情況下，ppl的值在100左右。

識別率度量一般用句子錯誤率(ser)和詞錯誤率(wer).

重複識別錯誤的詞技術。

gmm-hmm採用了狀態聚類後的跨詞三音素模型，訓練採用的準則是最大似然(maximum likelihood,ml)、最大相互資訊(maximum mutual information,mmi)和最小因素錯誤(minimum phone error,mpe)準則。採用39維音訊特徵，即13維靜態梅爾頻率倒譜係數(mel-frequency cepstral coefficient)及其一階、二階導數。這些特徵採用倒譜均值和方差歸一化(cepstral mean and variance normalization,cmvn)演算法進行了預處理。

結果顯示：mpe>mmi>ml,語音識別效能依次衰減。

在cd-dnn-hmm中，dnn的輸入特徵是11幀(5-1-5),當前幀加前後各5幀的mfcc特徵。在預訓練及不同的迭代中選用不同的學習率。

minibatch，慣性係數的設定。這些都是超引數。

b.switchboard資料集

系統使用13維plp(頻譜線性**係數，perceptual linear prediction coefficient，包括三階差分)，做滑動視窗的均值-方差歸一化，然後使用異方差線性判別分析(heteroscedastic linear discriminant analysis,hlda)降到了39維。

語言模型可由標註資料訓練。

dnn使用隨機梯度下降(sgd)及小批量(mini_batch)訓練。mini_batch=256,表示mini_batch為256幀。

2.對單音素或者三因素狀態進行建模

對三因素直接建模可以從細緻的標註中獲得益處，並且緩和過擬合。雖然增加dnn的輸出層節點數會降低幀的分類正確率，它減少了hmm中令人困惑的狀態轉移，因此降低了解碼中的二義性。

3.越深越好：

窄切深的神經網路效能優於寬且淺的神經網路。

在實際中，神經網路越深,識別率越高，訓練解碼代價越大，我們需要在詞錯誤率提公升和訓練解碼代價提公升之間做出權衡。

4.利用相鄰的語音幀：

為了在gmm系統中使用相鄰的幀，需要使用複雜的技術，如fmpe、hlda、基於區域的轉換或者tandem結構。因為gmm中使用對角的協方差矩陣，特徵各個維度之間需要是統計不相關的。dnn則是乙個鑑別性模型，無論相關或不相關特徵都可以接受。

5.預訓練：

6.訓練資料標註質量的影響：

7.調整轉移概率：

語音識別實踐第6章總結2

語音識別實踐第4章 DNN

第6課時語音識別

windows api第2章總結

語音識別實踐 第6章總結2

語音識別實踐 第4章 DNN

第6課時 語音識別

windows api第2章總結

相關推薦

語音識別實踐第6章總結2

語音識別實踐第4章 DNN

第6課時語音識別