使用AMR編解碼器生成VAD的標籤

2021-10-09 19:28:54 字數 1731 閱讀 8212

目錄

1. amr編解碼器簡介

2. amr語音幀格式

3. vad標籤

這裡簡單介紹下amr編解碼器,amr編解碼器有窄帶和寬頻兩種模式。其中窄帶編碼模式有8種,編碼速率從4.75到12.2kbps。在窄帶編碼模式中取樣率為8000hz,每一幀為20ms,包含160個取樣點。在寬頻編碼模式下編碼模式有9種,編碼速率從6.6到23.85kbps。寬頻編碼模式中,取樣率為16000hz, 每一幀仍是20ms但是包含320個取樣點。我們以窄帶10.2kbps編碼速率作為生成vad label的工作模式,在這種編碼速率下一幀有204個bit。

首先amr編碼後的檔案格式如下圖所示,包含乙個檔案頭和語音幀資料:

如果是單通道amr窄帶模式的話,檔案頭為ascii的字串"#!amr\n" ,下面介紹語音幀的格式,每乙個語音幀資料首先包含乙個八位位元組幀頭,格式如下

第一位f,如果為1則表示這一幀後面還有其他幀,如果為0表示當前幀為最後一幀;ft表示這是amr或者amr-wb的編碼模式,或者是舒適雜訊(標記為sid),具體值見下表(voip編解碼器為了節省頻寬,編碼過程中當檢測到當前幀為靜音幀時會不編碼這一幀而使用特殊的標記,解碼時當前幀產生一幀舒適雜訊);

frame type

mode indication

mode request

frame content (amr  mode, comfort noise, or other)

amr 4,75 kbit/s

amr 5,15 kbit/s

amr 5,90 kbit/s

amr 6,70 kbit/s (pdc-efr)

amr 7,40 kbit/s (tdma-efr)

amr 7,95 kbit/s

amr 10,2 kbit/s

amr 12,2 kbit/s (gsm-efr)

amr sid

gsm-efr sid

tdma-efr sid  

pdc-efr sid

12-14

for future use

no data (no transmission/no reception)

q表示語音質量,如果其為0則表示當前幀被嚴重損害,需要根據ft的內容進行相應的處理。前面說語音幀幀頭為8個bit但這裡只有6個bit, 另外兩個是為0的padding位。

知道了幀格式後面的事情就好辦了,只要按格式讀取語音幀頭的ft的值就能確定當前值是不是靜音部分了。

我們看下amr的vad檢測結果,發現在編碼剛開始的時候不是很準確存在幾個幀誤判,這是因為vad演算法初始引數是認為設定的,後面根據語音本身調製引數後演算法逐漸收斂。

最後貼一下amr的vad檢測演算法,具體細節有興趣的可以自己去了解

語音編解碼器 2

2.1.1.1 ilbc協議 6 2.1.1.2 eg.711 eg.711是gips公司基於標準g.711編碼 解碼器的改進型產品,具有極好的抗包丟失強健性。這種改進型編碼 解碼器,使嚴重超載的網路也能保持良好音質。2.1.1.3 ipcm wb ipcm wb是優質 低複雜度寬頻編碼 解碼器,對...

語音編解碼器 3

語音壓縮編碼研究的基本問題就是在一定的編碼速率下,如何用較低的複雜度和較小的時延獲得盡量好的重建語音,因此重建語音質量 編碼速率 演算法複雜度 演算法延遲是衡量編解碼器效能的四個主要因素。表2 1是上述voip常用語音編碼器的指標的對比 1 4 5 6 縱觀集中編解碼器,ilbc有很多技術優勢,主要...

編解碼器的詳細介紹

業務是網路的主要業務之間。尤其移動網際網路業務的興起,在運營商和應用開發商中,業務份量極重,其中 的編譯碼服務涉及需求分析 應用開發 釋放license收費等等。最近因為專案的關係,需要理清 的codec,比較搞的是,在豆丁網上看運營商的規範 標準,同一運營商同樣的業務在不同文件中不同的要求,而且有...