語音壓縮演算法測評及質量評估

2021-04-09 01:28:25 字數 2510 閱讀 6994

1.語音壓縮的基本依據

從資訊保持的角度講,只有當信源本身具有冗餘度,才能對其進行壓縮。根據統計分析的結果,語音頻號中存在著多種冗餘度m,主要有以下幾個方面:

1.

幅度非均勻分布

語音中小幅度樣本比大幅度樣本出現的概率要高。又由於通話必然會有間隙,更出現了大it的低電平樣本。此外,實際語音頻號的功率電平也趨向於出現在編碼範圍的較低電平端。因此,語音頻號的幅值分布是非均勻的。

2.

樣本之間的相關性

對語音頻號的波形分析表明to,取樣資料的最大相關性存在於鄰近樣本之間。當取樣速率為8khz時,相鄰取樣值之間的相關係數大於0.85,甚至在相距十個樣本之間,相關係數還有0.3左右的數it級。如果取樣速率提高,樣本間的相關性將更強。

3.

週期之間的相關性

雖然**語音頻號的頻率分布在300-3400hz的頻帶內,但在特定的瞬間,某一聲音卻往往只是該頻帶內的少數頻率分i起作用。當聲音中只存在少數幾個基本頻率時,就會像某些振盪波形一樣,在週期與週期之間存在著一定的相關性。

4.

基音之間的相關性

語音可以分為清音和濁音兩種基本型別.濁音是由聲帶振動產生,每一次振動使一股空氣從肺部流進聲道。激勵聲道的各股空氣之間的間隔稱為基音週期。濁音的波形對應於基音週期的長期重複波形。因此,對語音濁音部分編碼的有效方法之一是對乙個基音週期波形進行編碼,並以它作為其它基音段的模板。此外,**通訊中還有很大的話音間隙。通話分析表明,語音間隙約佔通話時間的60%。這本身也是一種冗餘。

正是由於語音頻號具有以上特點,對語音的壓縮編碼才成為可能。在現今的通訊系統當中,各種語音壓縮編碼得到了廣泛的應用,並形成了一系列的語音編碼標準。語音壓縮編碼技術大大緩解了通道緊張的狀況。

語音編碼器的主要功能就是把使用者語音的

pcm(脈衝編碼調製)樣值編碼成少量的位元(幀)。這種方法使得語音在鏈路產生誤碼、網路抖動和突發傳輸時具有健壯性。在接收端,語音幀先被解碼為

pcm語音樣值,然後再轉換成語音波形。

語音頻號的數字編碼方法主要分成三類:波形編碼、引數編碼和混合編碼,其編碼質量大致如圖

2所示,表

2給出了各種編碼方法的典型例子。波形編碼是對語音時域或頻域波形進行編碼,由於這種系統保留原始樣值的細節,從而保留了訊號的各種過度特徵,因此解碼聲音質量較高,但此系統編碼位元速率較高,壓縮比不大。引數編碼的基礎是利用人類語音的生成模型,這樣在傳輸過程中只需要傳送模型的引數,大大降低了系統的位元速率,特別適合於無線通訊,保密和軍事通訊領域。引數編碼的缺點在於恢復的語音質量較差。採用引數編碼方法的編碼器有時稱為聲碼器。

正因為上述兩種編碼存在著不足,因此人們又想到了混合編碼的方法。混合編碼是波形編碼和引數編碼的結合。它既利用了語音的生成模型,減少了傳輸碼率,又使解碼的語音產生接近原始語音的波形,以保留說話人的各種自然特徵,因此當前各種國際標準通常採用這種方法。

第乙個語音壓縮系統是2023年貝爾實驗室的h.duddlyf發明的通道聲碼器.2023年reeves提出pcm(脈衝編碼調製)編碼,後來成為現代**系統的常規語音編碼方式,2023年被itu-t採用為g.711標準建議。64kbps速率的pcm方式,取樣速率為8k,每個取樣點盆化為8 bit。現在所說的語音壓縮編碼,都是相對於64kbps的pcm標準而言。2023年delorain提出了增量調製(om), 2023年貝爾公司的culter取得了差分脈衝編碼調製(dpcm)的專利。為了進一步降低編碼速率,以後又陸續提出了一些編碼方案。2023年制定的g.722建議採用32kbps的adpcm 編碼,雖然位元速率較高,但是實現簡單,且音質很好,在目前的isdn系統中仍然使用這一編碼方案.2023年制定的itu-t g.728建議,採用ld-celp(低延遲碼激勵線性**),編碼速率達到16kbps, 2023年制定的g.723.1建議,採用改進的激勵線性**編碼,編碼速率達到5.3/6.3kbps。目前,歐洲的g**通訊系統採用的是13kbps的rpe-ltp(規則脈衝激勵長週期**)壓縮編碼方案,同時正在開發6.5kbps的celp方案作為它的半速率標準方案。近年來,低位元率語音編碼(8kbps以下)的研究取得了很大的飛躍.美國先後公布了4.8kbps的celp編碼,2.4kbps的melp編碼,目前甚至出現了速率在1kb ps左右的語音編碼演算法noimi由於這些演算法的延時都比較大,一般在20-80ms,還沒有被採用為國際標準。隨著演算法的進一步改進,其應用前景將更加廣闊。

語音質量評估從評估主體上講可分為兩大類:主觀評估和客觀評估。

4.2.1.1

mos法簡介

4.2.2.1

客觀評估方法的分類

4.2.2.2

主要客觀評估方法的效能比較

4.2.2.3

客觀評估方法研究的發展特點及方向

4.2.2.4

常用客觀語音評估演算法介紹

4.2.2.5

語音質量評估解決方案要求:

數字蜂窩網(g**)中的rpe-ltp編碼方案採用規則脈衝作激勵源,而北美數字移動通訊系統中vselp採用碼本激勵的方法。表5給出了當今正在使用的g**/cdma等移動通訊系統語音壓縮編碼的標準及其引數.

保密**的一些標準,由於其應用領域的特殊性,關於它的詳細資訊及其某些引數仍處於保密當中。表6僅給出了一些保密**的編碼標準及其大概資訊.

目標檢測評估方法學習及AP大於1情況的探索

最近在訓練pytorch yolov3模型模型的過程中,模型評估時,某些類別的ap值會大於1,根據自己的常識,一直認為計算ap的方法存在問題,但是並不是。原因請往下看。詳情請參考 預備知識 iou 兩個目標框的交並比 目標框定義 true positive tp 乙個正確的定位結果,就是你 的框和我...

關於測試用例設計 評審及用例質量評估的思考

測試用例設計 評審是每個測試人員進行的關鍵測試活動之一,如何做好測試用例設計?如何進行測試用例評審?如何評估測試用例的質量?是我們必須考慮的問題。做好測試用例設計,需要考慮以下因素 測試用例是測試人員最重要的輸出之一,也是後續開展測試執行與評估的基礎。測試用例評審是保證測試用例質量的乙個重要環節。如...

BWT壓縮演算法及FM搜尋演算法詳解

bwt壓縮演算法其經典地位無可撼動,思想真是個奇妙的東西,廢話不多說,讓我們來看看她的奇妙之處吧。假設有一串字串s acaacg 長度為6,如果直接對此串進行壓縮,可能是a 1,c 1,a 2,c 1,g 1,對於更長的串,由於其隨機性,使得同乙個字母的大量重複更多,因此我們需要一種更好的辦法,既能...