VoIP技術 2 語音編碼演算法 1

2021-09-30 04:21:54 字數 2617 閱讀 9445

4

.語音編碼演算法原理與應用

4.1

波形編碼演算法基本原理

語音編碼主要有波形編碼和引數編碼兩大類。波形編碼就是根據語音頻號波形匯出相應的數字編碼形式。最早的波形編碼就是

pcm,即

itu-t g.711a

和itu-t g.711

μ,其編碼速率為

64kbit/s

。圖9

自適應量化器

pcm雖然能夠提供相當好的語音質量,但要占用過高的網路頻寬資源。這裡主要討論低速率的波形編碼演算法,是利用了連續語音之間的相關性,主要採用的技術為自適應量化器和自適應**器。

為了獲得僅可能大的量化訊雜比,應該對小訊號採用小的量化步長,對大訊號採用較大的量化步長。使量化器範圍與輸入訊號的動態範圍相匹配,減小量化雜訊。這就是自適應量化技術。自適應量化分為兩類:前向自適應量化和後向自適應量化,目前常用的是後向自適應量化。

自適應**的基本原理是根據語音波形的時間相關性確定**係數,使差分訊號的方差為最小,時間相關性則以自相關函式來度量,如圖

9所示。

4.2

引數編碼演算法基本原理

語音的種類主要有兩種:濁音和清音

。聲帶周期性地開啟和關閉產生固定頻率的聲音,這個頻率就是濁音的音調;音調頻率男性為

50~250hz

,女性為

100~500hz

;考慮到音訊等聲音頻率範圍,一般是

0.3khz~3.4khz

,因此8khz

的取樣頻率滿足取樣定理。

從頻域上來看,幅頻頻譜的包洛有幾個明顯的區域性最大值,稱為共振峰,頻譜的精細結構呈現週期性。清音的頻譜沒有週期性,峰值的分布也沒有明顯的規律,整個頻譜相對比較平坦,類似於白雜訊,因而幾乎不可**。

10 語音生成模型

引數編碼器又稱為聲碼器(

vocoder

),它的原理和設計思想跟波形編碼完全不同。引數編碼根據對聲音形成機理的分析,構造語音生成模型(如圖

10),該模型以一定精度模擬發話者的發聲聲道;接收端根據該模型還原生成發話者的因素。由於話音訊號變化是緩慢的,模型引數的更新頻度較低,可以有效地降低編碼位元率。因此引數編碼在移動通訊、

voip

系統等領域得以廣泛應用。

引數編碼器主要可分為三類:通道式、共振峰式和線性**編碼

(lpc:linear predictive coding)

方式。其中線性**編碼方式的效能優異,目前低位元率語音編碼器都採用這種技術。

4.3

編碼演算法綜述及其屬性和效能評估

在voip

系統中,為了充分地利用網路頻寬資源,一般均採用語音壓縮編碼。語音編碼的主要屬性有位元率、時延、複雜度和語音質量四項。在具體的實現中,這些屬性往往相互衝突,在實際應用中,應該是對各項屬性的折衷,確定合適的編碼。

演算法綜述:

降低位元率是往往是語音編碼的首要目標,採用的壓縮編碼的主要目的就是充分利用網路資源。一般來說,編碼的位元率越低,演算法的複雜度就越高,編碼的處理時延也會越長,並降低語音質量。

目前,話音

和影象壓縮技術發展十分迅速,已經研究開發出很多高效率的壓縮編碼技術。如先進的以碼本激勵線性**

(celp)

原理為基礎的

g.729

、g.723(g.723.1)

話音壓縮編碼技術。常用的

itu-t g.729

演算法和itu-t g.723.1

演算法的編碼速率分別為

8kbit/s

和5.3

或6.3kbit/s

。以g.729

為例,它可將經過取樣的

64kb/s

話音以幾乎不失真的質量壓縮至

8kb/s

。話音壓縮編碼技術是

ip**技術的乙個重要組成部分。影象編碼方面有

ip網路會議系統採用的

h.261(

活**像編碼)和

h.263(

低速率活**像編碼

)。傳真編碼方面則有

t.38。

近年來,出現了一些可變位元率的技術,主要有兩個演算法。

活動語音檢測

(vad: voice activity detection)

:主要用於檢測輸入訊號是話音還是背景噪音。

舒適雜訊生成

(cng: comfortable noise generation)

:主要用於接收方重建背景雜訊。

根據統計,雙方通話的過程中,每一方真正講話的時間約為

40%,即約有

50%為聆聽對方講話的靜默時間,

10%為講話時短暫停頓的靜默時間。靜音檢測技術可以有效剔除靜默訊號,從而使話音訊號占用的頻寬要求進一步降低到

3.5kb/s

左右,乙個很自然的想法就是:通過利用

vad技術,在講話時,**流正常傳送,在沒講話時,不向對方傳送**流,為了不使得對方產生斷線的錯覺,在對方產生舒適雜訊。這種演算法實現地不當,就會丟掉部分語音,如句子的開始。乙個好的演算法應該保證:丟掉的語音小於

64毫秒,而且丟掉的語音小於

0.2%

VoIP學習筆記第二部分 語音編碼

我們在前一節提到過mos mean opinion score 這個概念,我們在傳輸語音的過程中,因為頻寬的限制問題理所當然的會把對語音資料進行有損的壓縮.這樣的話,語音的質量就會降低,但是通訊的壓力會很小,相應的mos的得分就會低一些.語音編碼技術的目標就是在保持相對較少的資訊量的情況下使mos盡...

語音低速率編碼技術和數字水印技術的研究

今天,我們無處不享受著數字通訊 系統和網路給我們帶來的便利以及數位化多 產品帶給我們的多彩的生活。數位化的觸角已深入到我們生活的各個部分。數位化 的廣為應用是因為數碼訊號易於儲存和傳輸,沒有積累失真,數位化儲存的資訊可高品質的還原等。在語音頻號處理 是目前國際上的乙個熱點,隨著網路的高速發展,其應用...

《VoIP技術構架 第2版 修訂版)》一導讀

voip技術構架 第2版 修訂版 本書第1版完成於1999年,在其中,我們描述了乙個發生在 新世界服務提供商 new world service provider 與已有的 整體式提供商和集團 monolithic provider and corporation 之間的爭鬥。現在,我們都已知道這個...