語音頻號的加窗處理

2021-08-27 09:45:33 字數 1198 閱讀 1536

平穩的隨機過程是研究語音頻號的主要手段,但是語音頻號本身並不是平衡的。

一,語音頻號不平穩

語音頻號在產生過程中與環境和發聲器官的聯絡很緊密,與各種運動都是相關的,訊號本身是不平移的訊號。主要是由於發聲器官的運動不可**帶來的短時變。

但發聲器官的狀態變化速度較聲音振動的速度要緩慢的多,因此語音頻號可以認為是短時平穩的。研究發現,在10~30ms的範圍內,語音頻譜特徵和一些物理特徵引數基本保持不變。因此可以將平穩過程的處理方法和理論引入到語音頻號的短時處理中,將語音頻號劃分為很多短時的語音段,每個短時的語音段稱為乙個分析幀。這樣,對一幀語音頻號進行處理就相當於對特徵固定的持續訊號進行處理。

如果幀和幀之間都是連續的,那會不會出現幀和幀之間的資訊可能會得不到處理的機會,為了避免這種情況,在分幀時需要確定乙個幀移,也就是幀是疊加的,使幀和幀之間能夠平滑的過渡,幀移一般都是取0~1/2之間的某乙個值。我一般取2/5。

二,問題

在對語音頻號進行分幀之後,然後每一幀都當成平穩訊號來處理,後面我們會用傅利葉展開每一項,以獲取mel頻譜特徵,這時問題就出來了。如下效應會出現

將具有不連續點的週期函式(如矩形脈衝)進行傅利葉級數展開後,選取有限項進行合成。當選取的項數越多,在所合成的波形中出現的峰起越靠近原訊號的不連續點。當選取的項數很大時,該峰起值趨於乙個常數,大約等於總跳變值的9%。這種現象稱為吉布斯效應。
這樣就不好了,因為我們的幀在起始和結束肯定是會出現不連續情況的,那樣這個訊號在分幀之後,就會越來越背離原始訊號,此時我們需要對訊號進行加窗處理,目的很明顯了,就是為了減少幀起始和結束的地方訊號的不連續性問題。

三,加窗函式作用

在明白上面的問題之後,就知道為什麼需要加窗了。另外,加窗之後是為了進行傅利葉展開,所以加窗的目的大致如下:

使全域性更加連續,避免出現吉布斯效應。

加窗之後,原本沒有週期性的語音頻號呈現出週期函式的部分特徵。

四,hamming窗定義

hamming窗在matlab裡有函式表示為hamming,如4hamming窗:

>> window=hamming(4)

window =

0.0800

0.7700

0.7700

0.0800

hamming的定義如下:

當然也可以加其他的窗,如方窗,或者hann窗,但hamming窗應用比較多。

語音頻號處理

濁音的聲帶振動基本頻率 fundamental frequency 稱為基音頻率。濁音的基音頻率 pitch 語音生成系統和語音感知系統 語音頻號生成的數學模型 語音頻號的特性分析 語音頻號處理是以語音語言學和數字訊號處理為基礎的綜合性學科,是用數字訊號處理技術對語音頻號進行處理的一門學科。說話人識...

語音增強演算法研究系列筆記 語音頻號加窗分幀處理

幀移參考鏈結 語音頻號屬於一種非平穩時變訊號,其產生過程與發聲器官地運動緊密相關,而發聲器官地狀態速率相對聲音振動地速率來說慢很多,因此語音頻號可以視為短時平穩訊號,因此,對其進行加窗分幀可將語音頻號視為乙個平穩訊號,更便於進行分析 對於語音頻號來說,幀長需要滿足兩個條件 從巨集觀上講,它必須足夠短...

語音頻號的預處理

2014年09月05日 綜合 共 1116字 字型大小 小 中 大 回顧上兩次的內容 上次主要說了音訊檔案的讀取 主要是matlab和c語言 感覺有幾個概念有點混淆 語音 音訊 語音英文是speech,音訊是audio,是music。據我的理解是音訊包括語音和 不知道這麼理解對不?此外,讀取音訊其實...