遠場語音技術簡介 001

2021-09-02 20:15:34 字數 2638 閱讀 3493

遠場語音系統架構

遠場語音系統由前端語音處理模組和後端語音識別模組組成,

目前商用的語音識別系統都是基於統計原理設計,如上面框圖所示,聲學模型用於表述聲學、麥克風、環境多樣性等可變因素,語言模型表述語言學角度定義的詞語組合方式及邏輯順序,與解碼器的應用介面用於將識別結果更好的適配到系統其他模組。典型的統計語音識別可以用下面的公式表述:

對於給定的語音特徵向量序列x=x1x2…xn,語音識別的目標是找到對應的單詞序列w=w1w2…wm,同時保證後驗概率p(w|x)為最大。由於上面等式在x範圍內計算,上面等式可以改寫為:

公式中的p(w)和p(x|w)通過語言模型和聲學模型分別計算得到。

實踐中最大的挑戰是如何建立精確的聲學模型p(x|w)和語言模型p(w)。對於大型詞彙語音識別系統,我們需要將裡面的單詞劃分成更小的音節序列(稱為發音建模),由於詞彙量很大,p(x|w)近似於音節模型。p(x|w)需要考慮喇叭差異、發音變化、環境

聲源定位技術之tdoa

tdoa

tdoa是先後估計聲源到達不同麥克風的時延差,通過時延來計算距離差,再利用距離差和麥克風陣列的空間幾何位置來確定聲源的位置。分為tdoa估計和tdoa定位兩步:

(1)tdoa估計

常用的有廣義互相關gcc,generalized cross correlation和lms自適應濾波

廣義互相關

基於tdoa的聲源定位方法中,主要用gcc來進行延時估計。gcc計算方法簡單,延時小,跟蹤能力好,適用於實時的應用中,在中等嘈雜強度和低混響雜訊情況下效能較好,在嘈雜非穩態雜訊環境下定位精度會下降。

lms自適應濾波

在收斂的狀態下給出tdoa的估值,不需要雜訊和訊號的先驗資訊,但是對混響較為敏感。該方法將兩個麥克風訊號作為目標訊號和輸入訊號,用輸入訊號去逼近目標訊號,通過調整濾波器係數得到tdoa。

(2)tdoa定位

tdoa估值進行聲源定位,三顆麥克風陣列可以確定空間聲源位置,增加麥克風會增高資料精度。定位的方法有mle最大似然估計、最小方差、球形差值和線性相交等。tdoa相對來講應用廣泛,定位精度高,且計算量最小,實時性好,可用於實時跟蹤,在目前大部分的智慧型定位產品中均採用tdoa技術做為定位技術。

聲源定位技術之波束形成

波束形成可分為常規的波束形成cbf(conventional beam forming)和自適應波束形成abf(adaptive beam forming)。cbf是最簡單的非自適應波束形成,對各個麥克風的輸出進行加權求和得到波束,在cbf中,各個通道的權值是固定的,作用是抑制陣列方向圖的旁瓣電平,以濾除旁瓣區域的干擾和雜訊。abf在cbf的基礎之上,對干擾和雜訊進行空域自適應濾波。abf中,採用不同的濾波器得到不同的演算法,即不同通道的幅度加權值是根據某種最優準則進行調整和優化。如lms,ls,最大snr,lcmv(線性約束最小方差,linearly constrained minimum variance)。採用lcmv準則得到的是mvdr波束形成器(最小方差無畸變響應,minimum variance distortionless response)。lcmv的準則是在保證方向圖主瓣增益保持不變的情況下,使陣列的輸出功率最小,表明陣列輸出的干擾加雜訊功率最小,也可以理解為是最大sinr準則,從而能最大可能的接收訊號和抑制雜訊和干擾。

cbf-傳統的波束形成

延時求和的波束形成方法用於語音增強,對麥克風的接收訊號進行延時,補償聲源到每個麥克風的時間差,使得各路輸出訊號在某乙個方向同相,使得該方向的入射訊號得到最大的增益,使得主波束內有最大輸出功率的方向。形成了空域濾波,使得陣列具有方向選擇性。

cbf + adaptive filter 增強型波束形成

結合weiner濾波來改善語音增強的效果,帶噪語音經過weiner濾波得到基於lms準則的純淨語音頻號。而濾波器係數可以不斷更新迭代,與傳統的cbf相比,可以更有效的去除非穩態雜訊。

abf-自適應波束形成

gslc是一種基於anc主動雜訊對消的方法,帶噪訊號同時通過主通道和輔助通道,而輔助通道的阻塞矩陣將語音頻號濾除,得到僅包含多通道雜訊的參考訊號、各通道根據雜訊訊號得到乙個最優訊號估計,得到純淨語音頻號估計。

未完待續…

雜訊抑制在遠場語音識別和通話中的應用

對帶噪語音做雜訊抑制,在遠場語音識別和通話中都會用到,也都會碰到乙個矛盾,是盡量的消除雜訊即便對語音有損傷,還是盡量的不損傷語音即便保留一些雜訊呢?筆者這些年,接觸了不少語音識別行業和通話行業的人,大家都在說,我們是兩個行業,雖然雜訊抑制的原理差不多,但是乙個是給機器聽的,乙個是個人聽的。那麼具體有...

關於語音增強中混響與回聲 近場與遠場的區分

混響 reverberation 與回聲 echo 都是指聲音經過反射後到達目標位置 人耳 錄音裝置等 並被接收的現象,但是它們之間有明顯的區別。其中,混響一般是在室內等相對狹小空間內的反射現象,它多徑效應明顯,聲音傳遞的路徑複雜,且延時較小 小於50ms 反射聲音與直達聲音無法明顯區分,但是會對聲...

語音識別技術

中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...