語音識別技術學習系列（一）入門

從這一篇開始，陸續學習語音識別技術，由淺入深。

這一篇是入門，主要學習的是語音識別技術的大致步驟，以及現在的幾種主流方法。

下圖是語音識別技術的系統框圖：

主要包括這樣幾個步驟：

1）預處理。對輸入語音頻號進行預加重和分幀加窗等處理，過濾其中不重要資訊及背景雜訊，進行端點檢測，以確定有效的語音段；

2）特徵提取。常見的特徵引數有基於時域的幅度、過零率、能量，以及基於頻域的線性**倒譜係數（lpcc）、mel倒譜係數（mfcc）等；

3）模式匹配。

目前已有幾種主流的語音識別技術：

1）動態時間規整（dtw）技術。採用動態規整法，並結合時間變換關係，得到特徵向量之間的距離，是語音識別中的一種經典演算法。dtw技術比較容易實現，但是不能充分利用語音頻號的時序特性和動態特徵，因此適合用於孤立詞、小詞彙等相對簡單的漢語語音識別系統。

2）隱馬爾可夫模型（hmm）技術。hmm用馬爾科夫鏈中的狀態表示語音的發音過程，在單字生成過程中，系統由乙個狀態轉移到另乙個狀態，在每個狀態下產生乙個輸出，直至該單字輸出完畢。hmm用馬爾科夫鏈來模擬訊號的變化過程，在通過序列間接地描述這種變化，因此它是乙個雙重隨機過程，因而能很好地描述語音頻號的總體非平穩性和短時平穩性。

hmm需要對當前的狀態序列分布作先驗假設；對高層次聲學音素建模能力弱，使聲學上相似詞容易混淆；hmm語音識別系統用硬體實現起來比較困難。

3）人工神經網路（ann）技術。訓練時間長。

現有語音識別的難點：

1）識別效能依賴周圍環境。當訓練環境和測試環境不一樣時，效果變差；

2）雜訊問題。如何去噪；

3）語音資訊的模糊性。讀音相似的詞語，同音不同意思的詞語，如何識別。

參考：《基於隱馬爾可夫模型的額語音識別技術研究》

語音識別技術學習系列（一） 入門

語音識別技術

語音識別技術

語音識別技術概覽

相關推薦

語音識別技術學習系列（一）入門