語音識別基礎知識

最近學習過程中整理的語音識別的基礎知識的筆記

語音識別本質上是一種模式識別的過程，未知語音的模式與已知語音的參考模式逐一進行比較，最佳匹配的參考模式被作為識別結果。

當今語音識別技術的主流演算法

，主要有基於動態時間規整

(dtw)

演算法、基於非引數模型的向量量化

(vq)

方法、基於引數模型的隱馬爾可夫模型

(hmm)

的方法、基於人工神經網路

(ann)

和支援向量機等語音識別方法。

一 . 語音識別分類：

根據對說話人的依賴程度：

1）特定人語音識別（sd）：只能辨認特定使用者的語音，訓練→使用。

2）非特定人語音識別（

si）：可辨認任何人的語音，無須訓練。

根據對說話方式的要求：

1）孤立詞識別：每次只能識別單個詞彙。

2）連續語音識別：用者以正常語速說話，即可識別其中的語句。

二. 語音識別系統的基本流程

（1）預處理模組：

對輸入的原始語音頻號進行處理，濾除掉其中的不重要的資訊以及背景雜訊，

語音頻號的端點檢測（找出語音頻號的始末）、

語音分幀（近似認為在10-30ms內是語音頻號是短時平穩的，將語音頻號分割為一段一段進行分析）

預加重（提公升高頻部分）等處理

（2）特徵提取：

去除語音頻號中對於語音識別無用的冗餘資訊，保留能夠反映語音本質特徵的資訊，並用一定的形式表示出來。

目前的較常用的提取特徵的方法還是比較多的，不過這些提取方法都是由頻譜衍生出來的。

梅爾頻率倒譜係數（mfcc)引數因其良好的抗噪性和魯棒性而應用廣泛。mfcc

的計算首先用

fft將時域訊號轉化成頻域，之後對其對數能量譜用依照

mel刻度分布的三角濾波器組進行卷積，最後對各個濾波器的輸出構成的向量進行離散余弦變換

dct，取前

n個係數。

cmusphinx

中也是用

mfcc

特徵的，

用幀frames

去分割語音波形，每幀大概

10ms

，然後每幀提取可以代表該幀語音的

39個數字，這

39個數字也就是該幀語音的

mfcc

特徵，用特徵向量來表示。

（3）聲學模型訓練：

根據訓練語音庫的特徵引數訓練出聲學模型引數。在識別時可以將待識別的語音的特徵引數同聲學模型進行匹配，得到識別結果。

目前的主流語音識別系統多採用隱馬爾可夫模型hmm進行聲學模型建模。聲學模型的建模單元，可以是音素，音節，詞等各個層次。對於小詞彙量的語音識別系統，可以直接採用音節進行建模。而對於詞彙量偏大的識別系統，一般選取音素，即聲母，韻母進行建模。識別規模越大，識別單元選取的越小。（《hmm學習最佳範例》、《隱馬爾科夫模型(hmm)簡介》、《一文搞懂hmm》）

（4）語言模型訓練：

語言模型是用來計算乙個句子出現概率的概率模型。

語言建模能夠有效的結合漢語語法和語義的知識，描述詞之間的內在關係，從而提高識別率，減少搜尋範圍。語言模型分為三個層次：字典知識，語法知識，句法知識。

對訓練文字資料庫進行語法、語義分析，經過基於統計模型訓練得到語言模型。

語言建模方法主要有基於規則模型和基於統計模型兩種方法。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律，其中n-gram模型簡單有效，被廣泛使用。它包含了單詞序列的統計。

n-gram模型基於這樣一種假設，第n個詞的出現只與前面n-1個詞相關，而與其它任何詞都不相關，整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計n個詞同時出現的次數得到。常用的是二元的bi-gram和三元的tri-gram。

sphinx中是採用二元語法和三元語法的統計語言概率模型，也就是通過前乙個或兩個單詞來判定當前單詞出現的概率p(w2| w1)，p(w3| w2, w1)。

（5）語音解碼和搜尋演算法：

解碼器：

1. 解碼端通過搜尋技術尋找最優詞串的方法。

2. 連續語音識別中的搜尋，就是尋找乙個詞模型序列以描述輸入語音頻號，從而得到詞解碼序列。

3. 基於動態規劃的viterbi演算法，在每個時間點上的各個狀態，計算解碼狀態序列對觀察序列的後驗概率，並在每個節點記錄下相應的狀態資訊以便最後反向獲取詞解碼序列。viterbi演算法本質上是一種動態規劃演算法，該演算法遍歷hmm狀態網路並保留每一幀語音在某個狀態的最優路徑得分。

搜尋演算法：

n-best搜尋和多遍搜尋：

為在搜尋中利用各種知識源，通常要進行多遍搜尋，第一遍使用代價低的知識源（如聲學模型、語言模型和音標詞典），產生乙個候選列表或詞候選網格，在此基礎上進行使用代價高的知識源（如4階或

5階的n-gram、4

階或更高的上下文相關模型）的第二遍搜尋得到最佳路徑。

順便記錄了一下語音識別基礎知識的思維導圖如下：

語音識別基礎知識

語音基礎知識

VOIP語音基礎知識

語音的基礎知識

語音識別基礎知識

語音基礎知識

VOIP語音基礎知識

語音的基礎知識

相關推薦