語音識別基礎知識

2021-07-22 03:46:57 字數 2595 閱讀 2801

最近學習過程中整理的語音識別的基礎知識的筆記

語音識別本質上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進行比較,最佳匹配的參考模式被作為識別結果。

當今語音識別技術的主流演算法

,主要有基於動態時間規整

(dtw)

演算法、基於非引數模型的向量量化

(vq)

方法、基於引數模型的隱馬爾可夫模型

(hmm)

的方法、基於人工神經網路

(ann)

和支援向量機等語音識別方法。

一 .  語音識別分類:

根據對說話人的依賴程度 :

1)特定人語音識別(sd):只能辨認特定使用者的語音,訓練→使用。

2) 非特定人語音識別(

si):可辨認任何人的語音,無須訓練。

根據對說話方式的要求 :

1)孤立詞識別:每次只能識別單個詞彙。

2)連續語音識別:用者以正常語速說話,即可識別其中的語句。

二.  語音識別系統的基本流程

(1)預處理模組:

對輸入的原始語音頻號進行處理,濾除掉其中的不重要的資訊以及背景雜訊,

語音頻號的端點檢測(找出語音頻號的始末)、

語音分幀(近似認為在10-30ms內是語音頻號是短時平穩的,將語音頻號分割為一段一段進行分析)

預加重(提公升高頻部分)等處理

(2)特徵提取:

去除語音頻號中對於語音識別無用的冗餘資訊,保留能夠反映語音本質特徵的資訊,並用一定的形式表示出來。

目前的較常用的提取特徵的方法還是比較多的,不過這些提取方法都是由頻譜衍生出來的。

梅爾頻率倒譜係數(mfcc)引數因其良好的抗噪性和魯棒性而應用廣泛。mfcc 

的計算首先用

fft將時域訊號轉化成頻域,之後對其對數能量譜用依照

mel刻度分布的三角濾波器組進行卷積,最後對各個濾波器的輸出構成的向量進行離散余弦變換

dct,取前

n個係數。

cmusphinx

中也是用

mfcc

特徵的,

用幀frames

去分割語音波形,每幀大概

10ms

,然後每幀提取可以代表該幀語音的

39個數字,這

39個數字也就是該幀語音的

mfcc

特徵,用特徵向量來表示。

(3)聲學模型訓練:

根據訓練語音庫的特徵引數訓練出聲學模型引數。在識別時可以將待識別的語音的特徵引數同聲學模型進行匹配,得到識別結果。

目前的主流語音識別系統多採用隱馬爾可夫模型hmm進行聲學模型建模。聲學模型的建模單元,可以是音素,音節,詞等各個層次。對於小詞彙量的語音識別系統,可以直接採用音節進行建模。而對於詞彙量偏大的識別系統,一般選取音素,即聲母,韻母進行建模。識別規模越大,識別單元選取的越小。(《hmm學習最佳範例》、《隱馬爾科夫模型(hmm)簡介》、《一文搞懂hmm》)

(4)語言模型訓練:

語言模型是用來計算乙個句子出現概率的概率模型。

語言建模能夠有效的結合漢語語法和語義的知識,描述詞之間的內在關係,從而提高識別率,減少搜尋範圍。語言模型分為三個層次:字典知識,語法知識,句法知識。

對訓練文字資料庫進行語法、語義分析,經過基於統計模型訓練得到語言模型。

語言建模方法主要有基於規則模型和基於統計模型兩種方法。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中n-gram模型簡單有效,被廣泛使用。它包含了單詞序列的統計。

n-gram模型基於這樣一種假設,第n個詞的出現只與前面n-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計n個詞同時出現的次數得到。常用的是二元的bi-gram和三元的tri-gram。

sphinx中是採用二元語法和三元語法的統計語言概率模型,也就是通過前乙個或兩個單詞來判定當前單詞出現的概率p(w2| w1),p(w3| w2, w1)。

(5)語音解碼和搜尋演算法:

解碼器:

1.  解碼端通過搜尋技術尋找最優詞串的方法。

2.  連續語音識別中的搜尋,就是尋找乙個詞模型序列以描述輸入語音頻號,從而得到詞解碼序列。

3.  基於動態規劃的viterbi演算法,在每個時間點上的各個狀態,計算解碼狀態序列對觀察序列的後驗概率,並在每個節點記錄下相應的狀態資訊以便最後反向獲取詞解碼序列。viterbi演算法本質上是一種動態規劃演算法,該演算法遍歷hmm狀態網路並保留每一幀語音在某個狀態的最優路徑得分。

搜尋演算法 :

n-best搜尋和多遍搜尋:

為在搜尋中利用各種知識源,通常要進行多遍搜尋,第一遍使用代價低的知識源(如聲學模型、語言模型和音標詞典),產生乙個候選列表或詞候選網格,在此基礎上進行使用代價高的知識源(如4階或

5階的n-gram、4

階或更高的上下文相關模型)的第二遍搜尋得到最佳路徑。

順便記錄了一下語音識別基礎知識的思維導圖如下 :

語音基礎知識

1 語音頻號的處理基礎 1 語音頻號的產生模型 語音是由發生器官產生的。肺呼進空氣,由氣管呼出形成氣流,氣流經由聲門,使聲帶振動,產生一系列離散脈衝,再經由咽腔和口腔,有時還經由鼻腔。隨著發音的不同,口的張合程度不同,舌在口中位置的不同,氣流經過各容積不斷變化的空腔時產生許多共振,最後從口和鼻以聲波...

VOIP語音基礎知識

voip語音基礎知識 1.voice gateway 主要用於實現從ip網路到傳統 網路 pstn 線路的轉換。2.gatekeeper 網守,它提供了兩個功能。第乙個 呼叫選路,類似於dns功能,負載 號碼和ip的解析。第二 cac,用於對呼叫建立請求的一種接納機制 接通前檢查網路頻寬環境是否建立...

語音的基礎知識

1 語音頻號的處理基礎 1 語音頻號的產生模型 語音是由發生器官產生的。肺呼進空氣,由氣管呼出形成氣流,氣流經由聲門,使聲帶振動,產生一系列離散脈衝,再經由咽腔和口腔,有時還經由鼻腔。隨著發音的不同,口的張合程度不同,舌在口中位置的不同,氣流經過各容積不斷變化的空腔時產生許多共振,最後從口和鼻以聲波...