語音領域的波束形成Beamforming小結

1. 背景介紹

波束形成是個很有意思的方向，應用從雷達領域到5g領域，近幾年在語音識別領域也大放光彩。本文主要聚焦於波束形成在語音領域的應用。

對於單麥克風來說，沒有波束的概率；波束形成主要針對多麥克風陣列，融合多個通道的資料，對雜訊和干擾方向進行抑制，增強目標方向的訊號。

一種方式是找到目標訊號的方向，一般用導向向量（steering vector）進行表示，基於此增強目標訊號；

一種方式是找到干擾訊號的方向，進行抑制，剩下的就是目標訊號。

2. 多通道訊號的公式描述

圖1：m個麥克組成的線性陣列

觀察訊號的數學表達（頻域形式）如下，這裡的

表示連續兩個麥克風之間的相位差

其實用

3. 傳統波束形成（delay-and-sum和filter-and-sum）

delay-and-sum: 傳統的波束形成可以描述為乙個空間濾波器，用該濾波器構建乙個特定的波束方向圖；可以分解為兩步：時間對其和加權求和。時間對齊的物理意義在於，某一固定方向訊號，傳遞到麥克風陣列時，不同麥克之間存在相位差，將訊號理解為波，讓波對齊，再加權求和就起到了增加訊號的作用。時間對齊控制著波束方向，加權求和控制著主瓣的波束寬度和旁瓣的特性。

filter-and-sum: 它是上述delay-and-sum的擴充套件，將簡單的delay操作用濾波filter操作代替，更具擴充套件性。

4.1 傳統mvdr

陣列採集訊號：

目標：得到訊號源

無畸變約束保證語音不失真，最小輸出功率保證干擾雜訊被最小化。

轉換成帶經典約束條件的凸優化問題：

最優解

需要計算出導向向量

mvdr是一種自適應波束形成器，而delay-and-sum是固定波束形成器。當各個通道的雜訊互不相關，並且具有相同功率的時候， mvdr退化成delay-and-sum。如果雜訊是乙個點聲源， mvdr會自適應地在雜訊方向形成乙個零點。

4.2 融入深度學習的mvdr

引入深度學習的目的：更好的估計目標訊號或雜訊訊號的協方差矩陣。

ø四步走

：nn估計頻譜

mask -->

計算空間協方差矩陣 -->計算導向向量-->

計算波束形成權重

阻塞矩陣：為產生只包含雜訊的訊號

自適應雜訊相消器：用於消除固定波束形成中的雜訊訊號

參考資料

[1] fundamentals of signal enhancement and array signal processing

[2] 麥克風陣列訊號處理

語音領域的波束形成Beamforming小結

基於小波變換的語音增強演算法簡單綜述

關於語音增強的一點小筆記

小公尺王育軍小愛背後的小公尺語音技術

語音領域的波束形成Beamforming小結

基於小波變換的語音增強演算法簡單綜述

關於語音增強的一點小筆記

小公尺王育軍 小愛背後的小公尺語音技術

相關推薦

小公尺王育軍小愛背後的小公尺語音技術