ASR自動語音識別技術

自動語音識別技術（automatic speech recognition）是一種將人的語音轉換為文字的技術。語音識別是乙個多學科交叉的領域，它與聲學、語音學、語言學、數字訊號處理理論、資訊理論、電腦科學等眾多學科緊密相連。由於語音頻號的多樣性和複雜性，語音識別系統只能在一定的限制條件下獲得滿意的效能，或者說只能應用於某些特定的場合。語音識別系統的效能大致取決於以下4類因素：1. 識別詞彙表的大小和語音的複雜性；2. 語音頻號的質量；3. 單個說話人還是多說話人；4. 硬體。

自動語音識別(automatic speech recognition 簡稱「asr「)技術的目標是讓計算機能夠「聽寫」出不同人所說出的連續語音，也就是俗稱的「語音聽寫機」，是實現「聲音」到「文字」轉換的技術。自動語音識別也稱為語音識別(speech recognition)或計算機語音識別(computer speech recognition)。

語音識別是研究如何採用數字訊號處理技術自動提取以及決定語音頻號中最基本、最有意義的資訊的一門新興的邊緣學科。它是語音頻號處理學科的乙個分支。

語音識別系統的效能大致取決於以下4類因素：1. 識別詞彙表的大小和語音的複雜性；2. 語音頻號的質量；3. 單個說話人還是多說話人；4. 硬體。

分類自動語音識別通常有以下幾種分類方法：

（1）按系統的使用者情況分：特定人和非特定人識別系統；

（2）按系統詞彙量分：小詞彙量、中詞彙量和大詞彙量系統；

（3）按語音的輸入方式分：孤立詞、連線詞、連續語音系統等；

（4）按輸入語音的發音方式分：朗讀式、口語（自然發音）式；

（5）按輸入語音的方言背景情況分：普通話、方言背景普通話、方言語音識別系統；

（6）按輸入語音的情感狀態分；中性語音、情感語音識別系統。

基本原理

訓練（training）：預先分析出語音特徵引數，製作語音模板，並存放在語音引數庫中。

識別（recognition）：待識語音經過與訓練時相同的分析，得到語音引數。將它與庫中的參考模板一一比較，並採用判決的方法找出最接近語音特徵的模板，得出識別結果。

失真測度（distortion measures）：在進行比較時要有個標準，這就是計量語音特徵引數向量之間的「失真測度」。

主要識別框架：基於模式匹配的動態時間規整法（dtw）和基於統計模型的隱馬爾可夫模型法（hmm）。

ASR自動語音識別技術

asr語音識別入門材料

電話機械人核心技術之ASR（自動語音識別）

靈雲語音識別（ASR）實現實時識別

ASR自動語音識別技術

asr語音識別入門材料

電話機械人核心技術之ASR（自動語音識別）

靈雲語音識別（ASR）實現實時識別

相關推薦