遠場語音技術簡介 001

遠場語音系統架構

遠場語音系統由前端語音處理模組和後端語音識別模組組成，

目前商用的語音識別系統都是基於統計原理設計，如上面框圖所示，聲學模型用於表述聲學、麥克風、環境多樣性等可變因素，語言模型表述語言學角度定義的詞語組合方式及邏輯順序，與解碼器的應用介面用於將識別結果更好的適配到系統其他模組。典型的統計語音識別可以用下面的公式表述：

對於給定的語音特徵向量序列x=x1x2…xn，語音識別的目標是找到對應的單詞序列w=w1w2…wm，同時保證後驗概率p(w|x)為最大。由於上面等式在x範圍內計算，上面等式可以改寫為：

公式中的p(w)和p(x|w)通過語言模型和聲學模型分別計算得到。

實踐中最大的挑戰是如何建立精確的聲學模型p(x|w)和語言模型p(w)。對於大型詞彙語音識別系統，我們需要將裡面的單詞劃分成更小的音節序列（稱為發音建模），由於詞彙量很大，p(x|w)近似於音節模型。p(x|w)需要考慮喇叭差異、發音變化、環境

聲源定位技術之tdoa

tdoa

tdoa是先後估計聲源到達不同麥克風的時延差，通過時延來計算距離差，再利用距離差和麥克風陣列的空間幾何位置來確定聲源的位置。分為tdoa估計和tdoa定位兩步：

（1）tdoa估計

常用的有廣義互相關gcc，generalized cross correlation和lms自適應濾波

廣義互相關

基於tdoa的聲源定位方法中，主要用gcc來進行延時估計。gcc計算方法簡單，延時小，跟蹤能力好，適用於實時的應用中，在中等嘈雜強度和低混響雜訊情況下效能較好，在嘈雜非穩態雜訊環境下定位精度會下降。

lms自適應濾波

在收斂的狀態下給出tdoa的估值，不需要雜訊和訊號的先驗資訊，但是對混響較為敏感。該方法將兩個麥克風訊號作為目標訊號和輸入訊號，用輸入訊號去逼近目標訊號，通過調整濾波器係數得到tdoa。

（2）tdoa定位

tdoa估值進行聲源定位，三顆麥克風陣列可以確定空間聲源位置，增加麥克風會增高資料精度。定位的方法有mle最大似然估計、最小方差、球形差值和線性相交等。tdoa相對來講應用廣泛，定位精度高，且計算量最小，實時性好，可用於實時跟蹤，在目前大部分的智慧型定位產品中均採用tdoa技術做為定位技術。

聲源定位技術之波束形成

波束形成可分為常規的波束形成cbf（conventional beam forming）和自適應波束形成abf（adaptive beam forming）。cbf是最簡單的非自適應波束形成，對各個麥克風的輸出進行加權求和得到波束，在cbf中，各個通道的權值是固定的，作用是抑制陣列方向圖的旁瓣電平，以濾除旁瓣區域的干擾和雜訊。abf在cbf的基礎之上，對干擾和雜訊進行空域自適應濾波。abf中，採用不同的濾波器得到不同的演算法，即不同通道的幅度加權值是根據某種最優準則進行調整和優化。如lms，ls，最大snr，lcmv（線性約束最小方差，linearly constrained minimum variance）。採用lcmv準則得到的是mvdr波束形成器（最小方差無畸變響應，minimum variance distortionless response）。lcmv的準則是在保證方向圖主瓣增益保持不變的情況下，使陣列的輸出功率最小，表明陣列輸出的干擾加雜訊功率最小，也可以理解為是最大sinr準則，從而能最大可能的接收訊號和抑制雜訊和干擾。

cbf-傳統的波束形成

延時求和的波束形成方法用於語音增強，對麥克風的接收訊號進行延時，補償聲源到每個麥克風的時間差，使得各路輸出訊號在某乙個方向同相，使得該方向的入射訊號得到最大的增益，使得主波束內有最大輸出功率的方向。形成了空域濾波，使得陣列具有方向選擇性。

cbf + adaptive filter 增強型波束形成

結合weiner濾波來改善語音增強的效果，帶噪語音經過weiner濾波得到基於lms準則的純淨語音頻號。而濾波器係數可以不斷更新迭代，與傳統的cbf相比，可以更有效的去除非穩態雜訊。

abf-自適應波束形成

gslc是一種基於anc主動雜訊對消的方法，帶噪訊號同時通過主通道和輔助通道，而輔助通道的阻塞矩陣將語音頻號濾除，得到僅包含多通道雜訊的參考訊號、各通道根據雜訊訊號得到乙個最優訊號估計，得到純淨語音頻號估計。

未完待續…

遠場語音技術簡介 001

雜訊抑制在遠場語音識別和通話中的應用

關於語音增強中混響與回聲近場與遠場的區分

語音識別技術

遠場語音技術簡介 001

雜訊抑制在遠場語音識別和通話中的應用

關於語音增強中混響與回聲 近場與遠場的區分

語音識別技術

相關推薦

關於語音增強中混響與回聲近場與遠場的區分