語音增強演算法研究系列筆記 語音頻號加窗分幀處理

2021-10-09 22:11:16 字數 1598 閱讀 9871

幀移參考鏈結

語音頻號屬於一種非平穩時變訊號,其產生過程與發聲器官地運動緊密相關,而發聲器官地狀態速率相對聲音振動地速率來說慢很多,因此語音頻號可以視為短時平穩訊號,因此,對其進行加窗分幀可將語音頻號視為乙個平穩訊號,更便於進行分析

對於語音頻號來說,幀長需要滿足兩個條件:

從巨集觀上講,它必須足夠短以保證幀內訊號是平穩地,而語音頻號地產生與發聲器官地運動緊密相關,發聲器官的運動是導致訊號不平穩地原因,所以在一幀訊號間發聲器官不能有明顯變化,所以一幀地長度應當小於乙個音素的長度;正常語速下,音素的持續時間大約是50-200ms,所以幀長一般取為小於50ms;

從微觀上分析,一幀語音頻號中必須包含足夠多的振動週期,因為頻域分析是對頻率進行分析的,只有足夠多的週期才能夠分析頻率,語音的基頻,男聲在100hz左右,女聲在200hz左右,換算為週期就是10ms和5ms,一幀需要包含多個週期,一般取至少20ms;

取出來的幀訊號在做傅利葉變化之間,需要先進行加窗操作,即與乙個窗函式相乘

加窗的目的是讓一幀訊號的幅度在兩端漸變到0,以減少頻譜洩露,一般而言常用的窗函式有:矩形窗、漢寧窗、漢明窗、三角窗、布萊克曼窗、凱賽窗和切比雪夫窗;其中矩形窗和漢明窗最為常用

矩形窗屬於時間變數的零次冪窗,其優點在於主瓣比較集中,缺點是旁瓣較高,導致變換中引入高頻干擾和洩露,甚至出現負譜現象

漢明窗屬於余弦窗的一種,漢明窗的加權係數相比漢寧窗能使旁瓣達到更小,其優點在於洩露較少,但是主瓣加寬,頻率解析度下降;

窗函式的選取需要考慮視窗形狀和視窗寬度兩個因素,窗函式的選擇對於引數的短時分析特性影響較大,因此需要選擇恰當的視窗使其短時引數能更好的反映語音頻號的變化;

不同的視窗形狀,會使能量的平均結果不同,並且不同的短時分析方法,如時域、頻域、倒譜域分析以及求取不同的語音特徵引數對窗函式的要求也不盡相同;一般選擇的窗函式在時域坡度較小,以減少語音幀的截斷效應;在頻域要有較寬的3db頻寬以及較小的邊帶極值;漢明窗的主瓣寬度相比矩形窗大一倍,其帶外衰減也比矩形窗大一倍多;矩形窗的譜平滑效能好,但損傷了高頻部分,使波形細節丟失,產生洩露現象;而漢明窗可以很好的減少洩露,因此漢明窗比矩形窗應用更廣泛;

窗函式的寬度對於能否反映語音頻號的幅度變化起著重要作用;視窗寬度的大與小,是相對語音頻號的基音週期而言的;通常認為乙個語音幀內應該包含1-7個基音週期;如果幀長值特別大,等於幾個基音週期量級,則窗函式則等效於頻寬很窄的低通濾波器,語音頻號通過時,反映波形細節的高頻部分被阻礙,短時能量隨時間變化很小,不能真實反映語音頻號的幅度變化,也就不能反映波形變化的細節;當幀長值特別小,即等於或小於乙個基音週期的量級時,訊號的能量將按照**波形的細微狀況而很快的起伏,濾波器頻寬變寬,短時能量隨時間急劇變化,不能得到較為平滑的短時能量資訊;

加窗的代價是一幀訊號兩端的部分被削弱了,沒有像中間的部分那樣得到重視,因此需採用幀移的辦法對訊號進行擷取;擷取訊號時不要背靠背的擷取,而是相互重疊一部分;相鄰兩幀的起始位置的時間差叫做幀移,常見取法是幀長的一半或者固定為乙個值;

語音頻號增強技術與應用,徐巖

語音 音訊演算法方向

喜歡最後的那段話,轉來自勉 1 語音 音訊編譯碼演算法 已經成熟地商業化 產品化,壓縮位元速率和音質總是一對冤家,只有一些特殊的儲存和通訊應用會要求低位元速率,更多的是追求高品質的音質,例如高畫質音質。2 語音識別演算法 做過一年半,初步了解識別率受多種因素影響,技術本身還需要在抗干擾等方面進一步發...

語音增強的幾個基本演算法

前言 1 單通道語音增強 主要是 語音增強 書籍內容的梳理 內容會持續更新,內容為個人的理解,如果存在偏差或者錯誤的地方,還希望各位幫忙指出來。一 單通道語音增強 選讀 speech enhancement theory and practice 主要是自己的讀書筆記.第一章 第四章,主要介紹語音增...

《語音頻號處理》學習筆記

共振峰 母音激勵進入聲道引起的共振特性。母音發音方式 聲道受聲帶振動 聲道不極端狹窄,形狀持續穩定 與鼻腔不耦合 濁音 聲帶振動 基音頻率 聲調軌跡 韻律 重音 時長 音高,音強不重要。漢語聲韻結構 v,cv,vc1,cvc1 聲調 濁音基音週期的變化 基音週期 聲帶振動週期 語譜圖 橫軸 時間,縱...