Fbank特徵與MFCC特徵解析

詳細的fbank特徵介紹見kaldi特徵提取之-fbank，可以執行其matlab**，然後結合這篇部落格fbank與mfcc 的介紹一起看

其中需要自己注意的是：

fbank只是缺少mfcc特徵提取的dct倒譜環節，其他步驟相同。

fbank的不足：fbank特徵已經很貼近人耳的響應特性，但是仍有一些不足：fbank特徵相鄰的特徵高度相關（相鄰濾波器組有重疊），因此當我們用hmm對音素建模的時候，幾乎總需要首先進行倒譜轉換，通過這樣得到mfcc特徵。

計算量：mfcc是在fbank的基礎上進行的，所以mfcc的計算量更大

特徵區分度：fbank特徵相關性較高，mfcc具有更好的判別度，所以大多數語音識別**中用的是mfcc，而不是fbank

第二篇部落格fbank與mfcc 其中dct倒譜的目的描述的比較清晰，其目的是：dct的實質是去除各維訊號之間的相關性，將訊號對映到低維空間。

離散余弦變換（discrete cosine transform，dct）是傅利葉變換的乙個變種，好處是結果是實數，沒有虛部。dct還有乙個特點是，對於一般的語音頻號，這一步的結果的前幾個係數特別大，後面的係數比較小，可以忽略。上面說了一般取40個三角形，所以dct的結果也是40個點；實際中，一般僅保留前12~20個，這就進一步壓縮了資料。

fbank與mfcc 有介紹到為什麼使用cmvn(cepstral mean and variance normalization，倒譜均值方差歸一化)

原因如下：

實際情況下，受不同麥克風及音訊通道的影響，會導致相同音素的特徵差別比較大，通過cmvn可以得到均值為0，方差為1的標準特徵。均值方差可以以一段語音為單位計算，但更好的是在乙個較大的資料及上進行計算，這樣識別效果會更加穩健。

cmvn的操作可以參考kaldi feature extraction，就是之前學的0-1標準化內容

是因為mfcc特徵提取是針對一段語音頻號進行特徵提取，忽略了語音頻號的動態連續性，所以使用差分操作。

具體的解釋可以參考mfcc**+一階、二階差分（matlab**）末尾所說的：我們都知道mfcc很好的表達了語音的特徵，但只是靜態的特徵。提取動態特徵，一般都採用一階二階差分，但一階二階差分究竟表示什麼，什麼含義：

一階差分就是離散函式中連續相鄰兩項之差；定義x(k),則y(k)=x(k+1)-x(k)就是此函式的一階差分，物理意義就是當前語音幀與前一幀之間的關係，體現幀與幀（相鄰兩幀）之間的聯絡；在一階差分的基礎上，z(k)=y(k+1)-y(k)=x(k+2)-2*x(k+1)+x(k)為此函式的二階差分.二階差分表示的是一階差分與一階差分之間的關係。即前一階差分與後一階差分之間的關係，體現到幀上就是相鄰三幀之間的動態關係。

Fbank特徵與MFCC特徵解析

MFCC特徵提取

最小特徵解析度

MFCC（語音特徵引數）

Fbank特徵與MFCC特徵解析

MFCC特徵提取

最小特徵解析度

MFCC（語音特徵引數）

相關推薦