ASR自動語音識別技術

2021-09-10 12:27:21 字數 1123 閱讀 2058

自動語音識別技術(automatic speech recognition)是一種將人的語音轉換為文字的技術。語音識別是乙個多學科交叉的領域,它與聲學、語音學、語言學、數字訊號處理理論、資訊理論、電腦科學等眾多學科緊密相連。由於語音頻號的多樣性和複雜性,語音識別系統只能在一定的限制條件下獲得滿意的效能,或者說只能應用於某些特定的場合。語音識別系統的效能大致取決於以下4類因素:1. 識別詞彙表的大小和語音的複雜性;2. 語音頻號的質量;3. 單個說話人還是多說話人;4. 硬體。

自動語音識別(automatic speech recognition 簡稱「asr「)技術的目標是讓計算機能夠「聽寫」出不同人所說出的連續語音,也就是俗稱的「語音聽寫機」,是實現「聲音」到「文字」轉換的技術。 自動語音識別也稱為語音識別(speech recognition)或計算機語音識別(computer speech recognition)。

語音識別是研究如何採用數字訊號處理技術自動提取以及決定語音頻號中最基本、最有意義的資訊的一門新興的邊緣學科。它是語音頻號處理學科的乙個分支。

語音識別系統的效能大致取決於以下4類因素:1. 識別詞彙表的大小和語音的複雜性;2. 語音頻號的質量;3. 單個說話人還是多說話人;4. 硬體。

分類自動語音識別通常有以下幾種分類方法:

(1)按系統的使用者情況分:特定人和非特定人識別系統;

(2)按系統詞彙量分:小詞彙量、中詞彙量和大詞彙量系統;

(3)按語音的輸入方式分:孤立詞、連線詞、連續語音系統等;

(4)按輸入語音的發音方式分:朗讀式、口語(自然發音)式;

(5)按輸入語音的方言背景情況分:普通話、方言背景普通話、方言語音識別系統;

(6)按輸入語音的情感狀態分;中性語音、情感語音識別系統。

基本原理

訓練(training):預先分析出語音特徵引數,製作語音模板,並存放在語音引數庫中。

識別(recognition):待識語音經過與訓練時相同的分析,得到語音引數。將它與庫中的參考模板一一比較,並採用判決的方法找出最接近語音特徵的模板,得出識別結果。

失真測度(distortion measures):在進行比較時要有個標準,這就是計量語音特徵引數向量之間的「失真測度」。

主要識別框架:基於模式匹配的動態時間規整法(dtw)和基於統計模型的隱馬爾可夫模型法(hmm)。

asr語音識別入門材料

沒有語音識別的背景,單看kaldi的 是看不懂的,去kaldi的新手qq群裡面問也沒人會教的。好在國外還有2門課程可以自學,1 英國愛丁堡大學的語音識別課程 2 美國史丹福大學的語音識別課程 另外csdn的乙個博主的文章挺全面的 舉個簡單的圖來總結語音識別的步驟,gmm其實就是將乙個frame 25...

電話機械人核心技術之ASR(自動語音識別)

語音識別技術,也被稱為自動語音識別 asr 其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入,例如按鍵 二進位制編碼或者字串行。與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的詞彙內容。語音識別技術的應用包括語音撥號 語音導航 室內裝置控制 語音文件檢索 簡單的...

靈雲語音識別(ASR)實現實時識別

語音識別 asr 技術為近年來多家企業都在大力發展的技術,捷通華聲更是全力研發該技術。之前的語音識別技術主要為整句或整段識別,使用者必須錄音結束後才能識別,而實時語音識別能力,打破了此技術瓶頸,解決了使用者實時錄入的需求,從而極大程度的提公升了使用者體驗。捷通華聲也藉此成為首家發布實時語音識別能力的...