十種客觀評價語音質量的方法

1. 基於snr的語音質量評價標準

1.1 snr和分段snr

1.2 頻域snr

2. 基於lpc係數的語音質量評價標準

2.1 對數似然比距離

2.2 itakura–saito距離

2.3 倒譜距離

3. 基於感知的語音質量評價標準

3.1 加權譜傾斜測度

3.2 pesq

4. 總結

基於snr的評價標準想必大家都已經有所了解, 我們首先給出訊雜比的定義

但是我們知道語音是短時平穩性的，在語音長度較長的情況下對整體按上式求訊雜比，於是有了分段訊雜比(segmental snr)，其計算公式為：

其中l為語音長度，m為語音幀數，n為語音幀長度，x(n)為原始語音，x_hat(n)為增強後的語音。但是上述的計算方法會出現乙個問題，那就是當語音靜音部分較多時會降低訊雜比的值，為了解決這一問題可以使用vad檢測的方法在只有語音段才計算訊雜比。另外一種方法就是限制訊雜比在一定範圍內如[-10, 35db]這樣就不需要額外進行vad檢測。

值得一提的是snr不僅可以在時域進行計算也可以在頻域進行計算，頻域分段訊雜比的計算公式為：

其中k為頻帶數目，wj為每個頻帶的權重。權重可以通過回歸分析得到(有興趣的可以搜尋frequency-variant objective measures)，另一種方法就是查表，如下表所示。

有的演算法針對乾淨語音和增強語音頻號的所有lpc模型之間的差異，提出了客觀評價標準。我們將語音用p階全極點模型來表示，即

其中ax就是這節的主角lpc係數，gx是雜訊的激勵。

那麼我們就可以使用對數似然比(log-likelihood ratio, llr)來評估語音質量，其計算公式為：

同樣的將其擴充套件到頻域

其中ax是原始語音的lpc係數，ax_hat是增強後語音的lpc係數，rx是原始語音lpc係數的自相關矩陣。ax(ω)對應的是頻譜。llr可以理解為增強訊號和原始號的**殘差的能量之比。

除了使用llr之外還有另外乙個測度itakura–saito, is，其計算公式為：

其中gx為增益，計算公式為：

r^t_x是自相關矩陣的第一行。這種方法有個缺點增強訊號和原始訊號頻譜的差異會被這個演算法懲罰，但心理聲學研究表明頻譜水平的差異對質量的影響最小。

提到lpc不得不讓人聯想到倒譜，倒譜係數可以從lpc係數遞迴得到，即

然後我們就可以使用基於倒譜的測度

語音質量到底如何主觀感受是最重要的，許多任務作從聽覺機理的角度去對語音質量進行評價。

心理聲學研究表明，人們對共振峰頻率不同的成對母音感覺最敏銳。加權譜傾斜測度(weighted spectral slope, wss) 首先通過一階差分來計算每個頻段的頻譜斜率

然後根據頻段是在譜峰值附近還是在波谷附近，峰值是否是最大峰值等條件對譜斜率進行加權，加權公式為:

其中max下標表示全域性最大值，locmax表示離其最近的最大值。最後wss測度可以表示為：

大多數語音客觀評價標準都關注在語音頻號的失真程度，較少從人類的聽覺去分析，不同評價標準和真實情況的相關係數如下表所示(最後的composite方法是把上面幾種方法加權綜合起來得到乙個最終的評價結果)。語音評價除了雲質量外還有可懂度的評價，它們會在後續的文章中介紹。

[1]. speech enhancement theory and practice

十種客觀評價語音質量的方法

資料探勘的十種分析方法

使團隊高效的十種方法

c 十種基礎排序方法的實現

十種客觀評價語音質量的方法

資料探勘的十種分析方法

使團隊高效的十種方法

c 十種基礎排序方法的實現

相關推薦