語音識別技術學習系列(一) 入門

2021-06-29 03:39:45 字數 946 閱讀 9048

從這一篇開始,陸續學習語音識別技術,由淺入深。

這一篇是入門,主要學習的是語音識別技術的大致步驟,以及現在的幾種主流方法。

下圖是語音識別技術的系統框圖:

主要包括這樣幾個步驟:

1)預處理。對輸入語音頻號進行預加重和分幀加窗等處理,過濾其中不重要資訊及背景雜訊,進行端點檢測,以確定有效的語音段;

2)特徵提取。常見的特徵引數有基於時域的幅度、過零率、能量,以及基於頻域的線性**倒譜係數(lpcc)、mel倒譜係數(mfcc)等;

3)模式匹配。

目前已有幾種主流的語音識別技術:

1)動態時間規整(dtw)技術。採用動態規整法,並結合時間變換關係,得到特徵向量之間的距離,是語音識別中的一種經典演算法。dtw技術比較容易實現,但是不能充分利用語音頻號的時序特性和動態特徵,因此適合用於孤立詞、小詞彙等相對簡單的漢語語音識別系統。

2)隱馬爾可夫模型(hmm)技術。hmm用馬爾科夫鏈中的狀態表示語音的發音過程,在單字生成過程中,系統由乙個狀態轉移到另乙個狀態,在每個狀態下產生乙個輸出,直至該單字輸出完畢。hmm用馬爾科夫鏈來模擬訊號的變化過程,在通過序列間接地描述這種變化,因此它是乙個雙重隨機過程,因而能很好地描述語音頻號的總體非平穩性和短時平穩性。

hmm需要對當前的狀態序列分布作先驗假設;對高層次聲學音素建模能力弱,使聲學上相似詞容易混淆;hmm語音識別系統用硬體實現起來比較困難。

3)人工神經網路(ann)技術。訓練時間長。

現有語音識別的難點:

1)識別效能依賴周圍環境。當訓練環境和測試環境不一樣時,效果變差;

2)雜訊問題。如何去噪;

3)語音資訊的模糊性。讀音相似的詞語,同音不同意思的詞語,如何識別。

參考:《基於隱馬爾可夫模型的額語音識別技術研究》

語音識別技術

中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...

語音識別技術

雖然人從外部獲取資訊,絕大部分來自來自視覺,可是語音的地位一直很高的,它很好的表表達了人的特徵和清晰的收入方式。其中語音識別技術的地位又是很高的,可以讓機器在字面上明白你在說什麼,這是自然的人機互動的基礎。現在走在語音識別技術前沿的公司有科大訊飛,google 微軟。在我們的前面幾篇 blog 中已...

語音識別技術概覽

語音識別基本和識別類似,都是從傳統的模型到深度神經網路dnn,再到rnn 深度卷積網路cnn。在端到端方面也是從隱馬爾科夫hmm到ctc lfmmi,再到attention方面 下面是一些模型列表 1.混合高斯 隱馬爾科夫模型 gmm hmm 2.深度神經網路 隱馬爾科夫模型 dnn hmm 3.深...