語音識別的基本方法

2021-06-04 23:28:29 字數 3973 閱讀 2664

一般來說

,語音識別的方法有三種:基於聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網路的方法

[1]。

(1)基於語音學和聲學的方法

該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於複雜,現階段沒有達到實用的階段。

通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音頻號的頻域或時域特性來區分。這樣該方法分為兩步實現:

第一步,分段和標號

把語音頻號按時間分成離散的段,每段對應乙個或幾個語音基元的聲學特性。然後根據相應聲學特性對每個分段給出相近的語音標號

第二步,得到詞序列

根據第一步所得語音標號序列得到乙個語音基元網格,從詞典得到有效的詞序列,也可結合句子的文法和語義同時進行。

(2)模板匹配的方法

模板匹配的方法發展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經過四個步驟:特徵提取、模板訓練、模板分類、判決。常用的技術有三種:動態時間規整

(dtw)

、隱馬爾可夫(

hmm)理論、向量量化(

vq)技術。

1

、動態時間規整

(dtw)

語音頻號的端點檢測是進行語音識別中的乙個基本步驟,它是特徵訓練和識別的基礎。所謂端點檢測就是在語音頻號中的各種段落

(如音素、音節、詞素

) 的始點和終點的位置,從語音頻號中排除無聲段。在早期,進行端點檢測的主要依據是能量、振幅和過零率。但效果往往不明顯。

60年代日本學者

itakura

提出了動態時間規整演算法

(dtw

:dynamic time warping)

。演算法的思想就是把未知量均勻的昇長或縮短

,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特徵與模型特徵對正。

動態時間規整是將時間規整和距離測度結合起來的一種非線性規整技術。設測試語音引數共有

n幀向量,而參考模板共有

m幀向量,且n ≠

m。要找時間規整函式

j = w(i) 

,使測試向量的時間軸

i 非線性地對映到模板的時間軸j 上

,並滿足:

d[ t(i) ,r(

ω(i) ) ]

是第i 

幀測試向量

t(i) 

和第j 

幀模板向量

r(j) 

之間的距離測度。

d 則是在最優情況下的兩向量之間的匹配路徑。一般情況下,

dtw採用逆向思路,從過程的最後階段開始,逆推到起始點,尋找其中的最優路徑。

2

、隱馬爾可夫法

(hmm)

隱馬爾可夫法

(hmm) 是70

年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。

hmm 

方法現已成為語音識別的主流技術,目前大多數大詞彙量、連續語音的非特定人語音識別系統都是基於

hmm模型的。

hmm是對語音頻號的時間序列結構建立統計模型,將之看作乙個數學上的雙重隨機過程:乙個是用具有有限狀態數的

markov 

鏈來模擬語音頻號統計特性變化的隱含的隨機過程,另乙個是與

markov 

鏈的每乙個狀態相關聯的觀測序列的隨機過程。前者通過後者表現出來,但前者的具體引數是不可測的。人的言語過程實際上就是乙個雙重隨機過程,語音頻號本身是乙個可觀測的時變序列,是由大腦根據語法知識和言語需要

(不可觀測的狀態

) 發出的音素的引數流。可見

hmm合理地模仿了這一過程,很好地描述了語音頻號的整體非平穩性和區域性平穩性

,是較為理想的一種語音模型。

hmm語音模型λ(π

,a ,b) 

由起始狀態概率(π

) 、狀態轉移概率

(a) 

和觀測序列概率

(b) 

三個引數決定。π揭示了

hmm 

的拓撲結構,

a 描述了語音頻號隨時間的變化情況,

b 給出了觀測序列的統計特性。 經典

hmm語音識別的一般過程是:用前向後向演算法

(forward - backward) 

通過遞推方法計算已知模型輸出

o 及模型λ

= f (

π,a ,b) 

時的產生輸出序列的概率

p(o|λ)

,然後用

baum-welch 

演算法,基於最大似然準則

(ml) 

對模型引數λ(π

,a ,b) 

進行修正,最優引數λ

*的求解可表示為λ

*= argmax 

。最後用

viterbi

演算法解出產生輸出序列的最佳狀態轉移序列

x。所謂最佳是以

x 的最大條件後驗概率為準則,即

x =arg max。

3

、向量量化

(vq)

向量量化

(vector quantization) 

是一種重要的訊號壓縮方法。與

hmm相比

,向量量化主要適用於小詞彙量、孤立詞的語音識別中。其過程是:將語音頻號波形的

k 個樣點的每一幀,或有

k 個引數的每一引數幀,構成

k 維空間中的乙個向量,然後對向量進行量化。量化時,將

k 維無限空間劃分為

m 個區域邊界,然後將輸入向量與這些邊界進行比較,並被量化為「距離」最小的區域邊界的中心向量值。向量量化器的設計就是從大量訊號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的向量量化系統,用最少的搜尋和計算失真的運算量,實現最大可能的平均訊雜比。失真測度主要有均方誤差

(即歐氏距離

) 、加權的均方誤差、

itakura2saito

距離、似然比失真測度等。初始碼書的生成可以是隨機選取、**生成法、乘積碼書法

[4]。在選定了失真測度和初始碼書後,就用

lbg演算法,對初始碼書進行迭代優化

,一直到系統效能滿足要求或不再有明顯的改進為止。

核心思想可以這樣理解:如果乙個碼書是為某一特定的信源而優化設計的,那麼由這一資訊源產生的訊號與該碼書的平均量化失真就應小於其它資訊的訊號與該碼書的平均量化失真,也就是說編碼器本身存在區分能力。

在實際的應用過程中,人們還研究了多種降低複雜度的方法,這些方法大致可以分為兩類:無記憶的向量量化和有記憶的向量量化。無記憶的向量量化包括樹形搜尋的向量量化和多級向量量化。

[3]

(3)神經網路的方法

利用人工神經網路的方法是

80年代末期提出的一種新的語音識別方法。人工神經網路

(ann)

本質上是乙個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入

-輸出對映能力在語音識別中都很有吸引力。但由於存在訓練、識別時間太長的缺點,目前仍處於實驗探索階段。 由於

ann不能很好的描述語音頻號的時間動態特性,所以常把

ann與傳統識別方法結合,分別利用各自優點來進行語音識別。

ann與dtw:

ann納入

dtw框架中的最簡單方法就是利用多層感知器模型

(mlp)

計算dtw

搜尋中的區域性路徑得分。

ann與hmm:

1)            

多層感知器網路來估計隱馬爾可夫模型的狀態概率輸出的方法

2)            

bp演算法實現

hmm模型引數的重估

3)            

利用自組織神經網路

kohonen

的學習向量量化演算法訓練產生向量量化碼本

語音識別的難點

儘管語音識別的研究已有半個世紀了,但現有的語音識別系統仍存在許多困難,還遠遠達不到實用化的要求,主要表現在 1 魯棒性 目前的語音識別系統對環境條件的依賴性強,要求保持測試條件和訓練條件一致,否則系統效能會嚴重下降。2 雜訊問題 現有的語音識別系統大多只能工作在安靜的環境下,一旦在雜訊環境下工作,講...

語音識別的個人小總結

可供使用的語音識別有google,訊飛,openears 微軟。這些都是通過網路上了解到的,可能有所差異。簡單的聊一下各個的優缺點。這是我個人總結各個大家的見解,有可能有所差異。會隨著了解的深入實時更新的 google 介面,通過該 api可以進行中文 英文等語言的識別 優點 1,語音識別引擎龐大,...

情感語音識別的入門解析

關於情感語音識別領域的研究距今已有二三十餘年的歷史。不管是情感語音識別,還是語音情感識別,含義是一樣的,都是對帶有情感的語音頻號進 感的正確判斷。最傳統的情感語音識別是基於機器學習下的有監督學習完成的。有監督,即 使用訓練集訓練處乙個模型,然後使用該模型對測試集中的語音頻號進 感狀態的正確判斷。傳統...