解碼器之特徵提取

特徵提取（fbank）

目的：1.把每一幀波形變成乙個包含聲音資訊的多維向量；

2. 能夠符合或類似人耳的聽覺感知特性

3. 在一定程度上能夠增強語音頻號、抑制非語音頻號

fbank

fbank的總體流程可以由下圖表示，去掉（dct）。

1.語音取樣率：

語音取樣率顧名思義就是在一秒長的音訊上取樣多少個幅值點。根據取樣定理取樣率要大於取樣訊號的兩倍，才能還原原始訊號資訊。人聲訊號人聲一般在300-3400，很多音效卡取樣率都是8k。對於我們這邊的演算法取16k，

就是為了不丟失其中的高頻成分。

2.預加重：

語音頻號中高頻部分能量很小，容易被雜訊覆蓋，因此有乙個預加重的過程，目的是為了提公升高頻部分，使得訊號頻譜變得平坦，移除頻譜傾斜，來補償語音頻號受到發音系統所抑制的高頻部分。

預加重公式：

由於高頻訊號表徵的是訊號變換的速率快慢，因此訊號的高頻分量一般體現在訊號上公升或者下降沿。預加重技術就是增強上公升沿或者下降沿的幅度。不過本公式採用的是去加重技術，

保持高頻不變，減去=少低頻訊號的幅值，從公式來看，是將當前幀點減去前一幀的幅度，因此在越是陡峭的地方，當前這點被減去的越少（因為

越是陡峭，兩幀之間的幅值差越大。而比較平緩的地方基本相當減去了自身的k倍），這樣一來高頻訊號幅值被減去的很少，低頻訊號被減去的很多，高頻訊號幅值相對提公升。

關於預加重的詳細解釋以及公式推導：

3.分幀

人聲帶訊號在短時長內可以認為是平穩訊號（一般取0.025秒），短時間頻譜不會變化（這樣的訊號特性方便傅利葉變換），所以為了方便分析訊號，一般將語音頻號分成很多幀。

後續的很多處理都是針對幀來操作的。在分幀的時候為了避免窗邊對訊號的遺漏，因此在對幀做偏移的時候，幀間要有重疊（一般選擇10ms）.否則，由於幀與幀連線處的訊號會

因為加窗而被弱化，這部分的資訊就丟失了。

4.加窗：

聲音頻號經過上面的分幀後，要做fft處理。但是訊號經過分幀後會有洩露（訊號做fft會被當成週期訊號處理，當你擷取的訊號首尾不相等時，是不滿足週期特性的），頻譜與

原始訊號有很大的差別。為了還原原始訊號頻譜，因此要對原始訊號加上乙個窗（實際上就是乘以乙個窗函式，使得擷取的訊號滿足傅利葉變換的條件）

關於洩露具體看：

關於窗具體看：

5.fft(快速傅利葉變換)

語音傳進來的訊號是時域訊號，混合各種頻段的訊號，為了方便神經網路學習，需要將轉成頻域訊號。然後在每一幀上做n點fft來計算頻譜，然後將每一幀的變換按軸頻率拼接在一起就是語音譜。

如下圖所示，橫軸是時間，縱軸是頻率，顏色深淺表示頻譜強度。

傅利葉變換：寫的非常好）

dft（離散傅利葉變換）

fft(快速傅利葉變換)

5.mel濾波器組

經過上面的步驟，在能量譜上應用mel濾波器組，就能提取fbank特徵。

在介紹mel濾波器組之前，先介紹一下mel刻度，這是乙個能模擬人耳接收聲音規律的刻度，人耳在接收聲音時呈現非線性狀態，對高頻的更不敏感，因此mel刻度在低頻

區分辨度較高，在高頻區分辨度較低，與頻率之間的換算關係為：

mel濾波器組就是一系列的三角形濾波器，通常有40個或80個，在中心頻率點響應值為1，在兩邊的濾波器中心點衰減到0，如下圖：

梅爾頻率倒譜係數mfcc：

特徵工程特徵提取

特徵提取將任意資料如文字或影象轉換為可用於機器學習的數字特徵注特徵值化是為了計算機更好的去理解資料字典特徵提取作用對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...

顏色特徵提取

顏色特徵是在影象檢索中應用最為廣泛的視覺特徵，主要原因在於顏色往往和影象中所包含的物體或場景十分相關。此外，與其他的視覺特徵相比，顏色特徵對影象本身的尺寸方向視角的依賴性較小，從而具有較高的魯棒性。面向影象檢索的顏色特徵的表達涉及到若干問題。首先，我們需要選擇合適的顏色空間來描述顏色特徵其次，...

解碼器之特徵提取

特徵工程 特徵提取

顏色特徵提取

顏色特徵提取

相關推薦

特徵工程特徵提取