語音互動裝置 前端訊號處理技術和語音互動過程介紹

2021-08-30 13:33:43 字數 2956 閱讀 3055

一、前端訊號處理

1. 語音檢測(vad)

語音檢測(英文一般稱為 voice activity detection,vad)的目標是,準確的檢測出音訊訊號的語音段起始位置,從而分離出語音段和非語音段(靜音或雜訊)訊號。由於能夠濾除不相干非語音頻號,高效準確的 vad 不但能減輕後續處理的計算量,提高整體實時性,還能有效提高下游演算法的效能。

vad 演算法可以粗略的分為三類:基於閾值的 vad、作為分類器的 vad、模型 vad。

基於閾值的 vad:通過提取時域(短時能量、短期過零率等)或頻域(mfcc、譜熵等)特徵,通過合理的設定門限,達到區分語音和非語音的目的。這是傳統的 vad 方法。

作為分類器的 vad:可以將語音檢測視作語音/非語音的兩分類問題,進而用機器學習的方法訓練分類器,達到檢測語音的目的。

模型 vad:可以利用乙個完整的聲學模型(建模單元的粒度可以很粗),在解碼的基礎,通過全域性資訊,判別語音段和非語音段。

vad 作為整個流程的最前端,需要在本地實時的完成。由於計算資源非常有限,因此,vad 一般會採用閾值法中某種演算法;經過工程優化的分類法也可能被利用;而模型 vad 目前難以在本地部署應用。

2. 降噪

實際環境中存在著空調、風扇以及其他各種各樣的雜訊。降低雜訊干擾,提高訊雜比,降低後端語音識別的難度。 

常用的降噪演算法有 自適應 lms 和維納濾波等。

3. 聲學回聲消除(acoustic echo cancellaction, aec)

aec也是一種常見的技術,在語音通話中,aec是必不可少的基礎技術。 

4. 去混響處理

在室內,語音會被牆壁等多次反射,麥克風採集到(圖12)。混響對於人耳完全不是問題,但是,延遲的語音疊加產生掩蔽效應,這對語音識別是致命的障礙。

對於混響,一般從兩個方面來嘗試解決:1)去混響 2)對語音識別的聲學模型加混響訓練。由於真實環境的複雜性,一定的前端去混響演算法還是非常有必要的。

5. 聲源定位(direction of arrival estimation, doa)

聲源定位是根據麥列收集的聲音語,確定說話人的位置。doa 至少有兩個用途,1)用於方位燈的展示,增強互動效果;2)作為波束形成的前導任務,確定空間濾波的引數。

聲源定位有如下常用方法有基於波束掃瞄的聲源定位、基於起解析度率譜估計的聲源定位以及 基於到達時間差(time difference of arrival, tdoa)的聲源定位。考慮到演算法複雜性和延時,一般採用tdoa方法。

6. 波束形成(beam forming, bf)

波束形成是利用空間濾波的方法,將多路聲音頻號,集成為一路訊號。通過波束形成,一方面可以增強原始的語音頻號,另一方面抑制旁路訊號,起到降噪和去混響的作用(圖13)。

二、 喚醒

出於保護使用者隱私和減少誤識別兩個因素的考慮,智慧型音箱一般在檢測到喚醒詞之後,才會開始進一步的復雜訊號處理(聲源定位、波束形成)和後續的語音互動過程。

一般而言,喚喚醒模組是乙個小型語音識別引擎。由於目標單一(檢測 出指定的喚醒詞),喚醒只需要較小的聲學模型和語言模型(只需要區分出有無喚醒詞出現),聲學打分和解碼可以很快,空間占用少,能夠在本地實時。

三、語音互動

語音互動的基本流程如圖16所示。下面分別對各個環節進行簡要介紹。 

1. 語音識別(automatic speech recognition, asr)

語音識別的目的是將語音頻號轉化為文字。語音識別技術相對成熟。目前,基於近場訊號的、受控環境(低雜訊、低混響)下的標準音語音識別能夠達到很的水平。然而在智慧型音箱開放性的真實環境,語音識別依然是乙個不小的挑戰,需要接合前端訊號處理一起來優化。

2. 自然語言理解(natural language understanding, nlu)

nlu 作為乙個研究課題還遠沒有被解決。但是在限定領域下,結合良好的產品設計,我們還是能夠利用現有技術,做出實用的產品。

3. 對話管理(diaglou management, dm)

多輪對話對於自然的人工互動非常重要。比如,當我們詢問「北京明天的天氣怎麼?」,之後,更習慣追問「那深圳呢?」而不是重複的說」**深圳明天的天氣怎麼?**「

在 nlu 無有得到很好解決的情況下,對話管理似乎不可能。好在限範圍下,結合產品設計,還是能做的不錯。一般的作法是,將輪對話解析出的引數做為上下文(全域性變數),帶入到下一輪對話;當前輪對話,根據一定的條件判斷,是否保持在上一輪的領域,是否清空上下文。

不同於純粹的聊天機器的對話管理,智慧型音箱的對話管理還有實際的操作功能(查詢資訊、提供控制指令)。

4. 自然語言生成(natural language generation, nlg)

5.  語音合成(speech synthesis)

語音合成又叫做文語轉換(text-to-speech,tts),更常見可能是 tts 這一稱呼。tts 的終極目標是,使機器能夠像人一樣朗讀任意給定的文字。

四、 其他技術

最後,我們簡單列舉一些相對成熟,但還沒有廣泛應用於智慧型音箱的技術。

聲紋識別

通過聲紋識別,可以設計出更加個性化的服務。

人臉檢測

如果音箱配置為攝像頭,可以通人臉檢測,確定使用者的位置。一方面可以有更好的互動設計,另一方面可以輔助聲源定位。

人臉識別

同聲紋識別類似,人臉識別也可以用來確定使用者的身份。

原文出處:

人機互動 裝置互動場景之互動等待

索引 1,互動等待 2,心理感受層面 3,場景解析及解決方案 4,另一種解決方式 5,最好的解決方式 1,互動等待 一般情況,人在無任何提示的情況下等待時長只有7秒 12秒,超過12秒後,大部門分人會選擇放棄。有資料顯示,在增加提示後,人的等待時間會提高套27秒以上,所以很多產品都增加了相應的提示。...

語音互動中ONESHOT裝置端實現

之前的幾篇博文中我們介紹了語音互動框架 語音sdk設計,本篇博文中重點介紹語音互動中的oneshot設計。那什麼是語音oneshot呢?簡單的講,就是使用者喚醒詞與要識別的內容連說。傳統的語音互動模式一般是這種情形 我想聽歌 等待對話結果 那oneshot互動模式是怎樣的呢?你好小樂,我想聽歌 呈現...

投石科技微笑吐券機互動裝置

用微笑兌換你的專屬鈔票。投石科技新研發的這款微笑吐券機裝置也叫顏值兌換機 笑容吐券機 笑容吐鈔機,主要利用攝像頭人臉捕捉技術,軟體識別笑容。識別人臉摳像,捕捉面部微笑特徵,來匹配鈔票面額。操作流程 1準備微笑 請保持微笑哦 2站到微笑atm面前 請站在c位,才能找到你哦 3估值笑容 你的笑容價值30...