語音識別的難點

儘管語音識別的研究已有半個世紀了, 但現有的語音識別系統仍存在許多困難, 還遠遠達不到實用化的要求, 主要表現在:

(1)魯棒性:目前的語音識別系統對環境條件的依賴性強, 要求保持測試條件和訓練條件一致, 否則系統效能會嚴重下降。

(2)雜訊問題：:現有的語音識別系統大多只能工作在安靜的環境下, 一旦在雜訊環境下工作, 講話人產生情緒或心理上的變化, 導致發音失真、發音速度和音調改變, 即產生lombard 效應或loud 效應。常用的抑制雜訊的方法, 可以概括為四個方面:譜減法、環

境規整技術、不修正語音頻號而是修正識別器模型使之適合雜訊、建立雜訊模型。

(3)語音識別基元的選擇:如何根據存貯空間和搜尋速度的要求, 選擇合適的識別單元, 如詞、音節、音素。一般來講, 要識別的詞彙量越多, 所用的基元應越小越好。

(4)端點監測:研究表明, 即使在安靜的環境下,語音識別系統一半以上的識別錯誤來自端點監測器。提高端點檢測技術的關鍵在於尋找穩定的語音引數。

語音識別的基本方法

一般來說語音識別的方法有三種基於聲道模型和語音知識的方法模板匹配的方法以及利用人工神經網路的方法 1 1 基於語音學和聲學的方法該方法起步較早，在語音識別技術提出的開始，就有了這方面的研究，但由於其模型及語音知識過於複雜，現階段沒有達到實用的階段。通常認為常用語言中有有限個不同的語音基元，而...

語音識別的個人小總結

可供使用的語音識別有google,訊飛，openears 微軟。這些都是通過網路上了解到的，可能有所差異。簡單的聊一下各個的優缺點。這是我個人總結各個大家的見解，有可能有所差異。會隨著了解的深入實時更新的 google 介面，通過該 api可以進行中文英文等語言的識別優點 1，語音識別引擎龐大，...

情感語音識別的入門解析

關於情感語音識別領域的研究距今已有二三十餘年的歷史。不管是情感語音識別，還是語音情感識別，含義是一樣的，都是對帶有情感的語音頻號進感的正確判斷。最傳統的情感語音識別是基於機器學習下的有監督學習完成的。有監督，即使用訓練集訓練處乙個模型，然後使用該模型對測試集中的語音頻號進感狀態的正確判斷。傳統...

語音識別的難點

語音識別的基本方法

語音識別的個人小總結

情感語音識別的入門解析

相關推薦