語音識別技術自學筆記

關鍵概念：

一幀訊號通過傅利葉變換可以提取出頻譜，頻譜具有精細結構（反映音高，用處不大）和包絡（反映音色，用處大）。

mfcc：梅爾頻率倒譜係數，主要描述頻譜包絡。梅爾頻率是基於人耳聽覺特性提出來的，它與hz頻率成非線性對應關係。梅爾頻率倒譜係數(mfcc)則是利用它們之間的這種關係，計算得到的hz頻譜特徵。主要用於語音資料特徵提取和降低運算維度（對於乙個很多維（取樣點）的資料，可以通過mfcc提取出其中最重要的幾個取樣點從而降低了資料的維度）。

識別乙個未知語音之後，要通過計算其與模板（提前已知）的距離來判斷語音是什麼意思。比較這個距離，要用到dtw動態彎演算法，讓待識別語音中的每一幀與模板中最相似的一幀進行匹配，總距離即為各幀匹配後所得的歐氏距離之和。

gmm：高斯混合模型。如果每個詞有多個模板，便可把模板訓練成模型（將模板切割成多個段落），在採用gmm模型識別語音時，依然是採用動態彎演算法，將歐氏距離代替為gmm概率密度，概率最大的模型即為識別結果。

hmm：隱馬爾可夫模型。（具體意義見ppt）

bigram：乙個馬爾可夫模型。音素hmm模型通過詞典復合成單詞hmm模型，再由單詞hmm模型與語言模型復合成語言hmm。

現在的結構已經應用了神經網路，具體見ppt。

補充資料：

語音識別技術自學筆記

語音識別技術

語音識別技術

語音識別技術概覽

相關推薦