語音識別的難點

2021-08-28 08:11:28 字數 474 閱讀 1288

儘管語音識別的研究已有半個世紀了, 但現有的語音識別系統仍存在許多困難, 還遠遠達不到實用化的要求, 主要表現在:

(1)魯棒性:目前的語音識別系統對環境條件的依賴性強, 要求保持測試條件和訓練條件一致, 否則系統效能會嚴重下降。

(2)雜訊問題::現有的語音識別系統大多只能工作在安靜的環境下, 一旦在雜訊環境下工作, 講話人產生情緒或心理上的變化, 導致發音失真、發音速度和音調改變, 即產生lombard 效應或loud 效應。常用的抑制雜訊的方法, 可以概括為四個方面:譜減法、環

境規整技術、不修正語音頻號而是修正識別器模型使之適合雜訊、建立雜訊模型。

(3)語音識別基元的選擇:如何根據存貯空間和搜尋速度的要求, 選擇合適的識別單元, 如詞、音節、音素。一般來講, 要識別的詞彙量越多, 所用的基元應越小越好。

(4)端點監測:研究表明, 即使在安靜的環境下,語音識別系統一半以上的識別錯誤來自端點監測器。提高端點檢測技術的關鍵在於尋找穩定的語音引數。

語音識別的基本方法

一般來說 語音識別的方法有三種 基於聲道模型和語音知識的方法 模板匹配的方法以及利用人工神經網路的方法 1 1 基於語音學和聲學的方法 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於複雜,現階段沒有達到實用的階段。通常認為常用語言中有有限個不同的語音基元,而...

語音識別的個人小總結

可供使用的語音識別有google,訊飛,openears 微軟。這些都是通過網路上了解到的,可能有所差異。簡單的聊一下各個的優缺點。這是我個人總結各個大家的見解,有可能有所差異。會隨著了解的深入實時更新的 google 介面,通過該 api可以進行中文 英文等語言的識別 優點 1,語音識別引擎龐大,...

情感語音識別的入門解析

關於情感語音識別領域的研究距今已有二三十餘年的歷史。不管是情感語音識別,還是語音情感識別,含義是一樣的,都是對帶有情感的語音頻號進 感的正確判斷。最傳統的情感語音識別是基於機器學習下的有監督學習完成的。有監督,即 使用訓練集訓練處乙個模型,然後使用該模型對測試集中的語音頻號進 感狀態的正確判斷。傳統...