在3kbps的頻寬下還能清晰地語音聊天?

2021-10-21 05:00:17 字數 1786 閱讀 7751

google最新推出的音訊編解碼器lyra,不僅實現了以每秒3kb網路寬頻提供聽起來自然清晰的語音聊天,還可以在僅90ms延遲的情況下在從高階雲伺服器到中端智慧型手機的任何裝置上執行。

文 / teresa2月25日,google ai blog發布了一篇文章詳細的介紹了最新推出的lyra——一種用於語音壓縮的新型超低位元率編解碼器。該編解碼器使google duo,以及未來的其他應用程式能夠以每秒3kb的網路寬頻提供聽起來很自然清晰的語音聊天。lyra音訊編解碼器

因此,google推出了一種高質量、低位元率的新型音訊編解碼器——lyra。儘管使用者在網速很慢的情況下,也能進行語音聊天。lyra編解碼器的基本結構體系非常簡單,如上圖所示。而lyra與其他音訊編解碼器的不同之處在於:它利用機器學習模型,開發了一種新的模型,能夠使用最少的資料來重建語音。這種模型不僅能夠區分訊號,還能生成全新的訊號。與之相比,傳統的引數編解碼器只從語音中提取關鍵引數,然後用於在接收端重建訊號。雖然實現低位元率,但得到的音訊通常聽起來很機械,不自然。而lyra利用這些新的自然聲生成模型,即能夠保持引數編解碼器的低位元率,同時又能實現高質量的音訊輸出。這與目前大多流**平台中使用的波形編解碼器幾乎不相上下。更重要的是,lyra的效率足夠高,可以在僅90ms延遲的情況下在從高階雲伺服器到中端智慧型手機的任何裝置上執行。

與現有編解碼器對比

lyra目前被設計執行在3kbps情況下,聽力測試表明,lyra的表現優於任何其他編解碼器。並且優於在相同8kbps情況下的opus,從而實現了超過60%的頻寬減少。lyra可以在頻寬條件不適合高位元率和現有的低位元率編解碼器不能提供足夠質量的情況下使用,這是它的一大優勢,也是解決現在低音訊質量的方案。

以下是lyra與現有編解碼器的對比:

在安靜的環境下:

original 原始音訊

opus@6kbps

lyra@3kbps

speex@3kbps

在嘈雜的環境下:

original 原始音訊

opus@6kbps

lyra@3kbps

speex@3kbps

上方是google提供的lyra與opus、speex分別以6kbps和3kbps,對同一音訊的壓縮質量對比。能夠明顯感受到即使lyra在3kbps情況下,自然語音音訊的清晰程度也遠優於opus在6kbps下的情況。

適用情況

python3在windows下的編碼問題

做小例子時 從github上面扒一些位元組流下來 系統為windows10 從powershell下輸出 pirint函式竟然直接扔了個異常出來 unicodeencodeerror gbk codec can t encode character u2122 in position 31 ille...

sqlite3在Linux下的程式設計0

簡單的建立和關閉sqlite3 include include include include int main int rc sqlite3 db rc sqlite3 open test.db db if rc fprintf stderr,can t open and create a sql...

在python3的環境下安裝anaconda的步驟

主要參考 還有其他一些資料 conda create name python37 python 3.7此時會提示是否建立環境,輸入y,配置後就可以正常使用了,若只是複製過去,會有一些bug,在使用conda info e 檢視可使用的python版本時,無法正常顯示。常用命令 deactivate ...