語音識別技術

2022-02-16 14:00:04 字數 1123 閱讀 1284

雖然人從外部獲取資訊,絕大部分來自來自視覺,可是語音的地位一直很高的,它很好的表表達了人的特徵和清晰的收入方式。其中語音識別技術的地位又是很高的,可以讓機器在字面上明白你在說什麼,這是自然的人機互動的基礎。現在走在語音識別技術前沿的公司有科大訊飛,google

,微軟。在我們的前面幾篇

blog

中已經提到了科大訊飛的輸入法,其中就是利用了語音識別技術。

現在來介紹一下語音識別技術的具體方法和應用。語音識別系統是模式識別系統的具體化。一般的系統包括如下的步驟:

特徵提取 --> 

模型 -->

特徵匹配 

--> 

識別結果

模型是通過訓練樣本獲得的。

語音識別要解決的問題有連續語音識別,非特定人識別和環境複雜等的情況。連續語音識別是對付乙個人的長句子的識別,非定人是的對付不同的人的語音輸入,複雜的情況是你可能處於不同的環境下進行輸入。這些問題都很難解決,但是在很多人的智慧型下,很多問題得以解決。下面講解部分方法:

大概的方法有基於hmm

的,快速自適應的,結構特徵的。

樣本數量

演算法原理

效果hmm

幾百個運用隱含markov

鏈的狀態的轉移來模擬語音頻號

很好,能達到很棒的識別率

快速自適應

一百個左右

使用自適應技術map,mllr

等消除聲道等的影響,這樣可以減少訓練樣本

對於很好的演算法,同樣可以獲得很好的識別率

結構特徵

五個左右

建立語音的hmm

連續模型,然後計算高斯分布之間的巴氏距離

暫時還在研究階段,沒有開始連續語音的研究

在不同的場合下使用不同的方法。現在主流的方法都是基於hmm

的,因為她它很可靠,還有現在的方法基本上是基於雲計算的,有乙個很強的服務集群提供服務。比如說科大訊飛的語音輸入法就是基於幾千臺的伺服器的。這樣的效果很好,基本可以用於實際的情況。

應用:1.

語音輸入,科大訊飛做的就是乙個例子,很好的人性化,可以很方便的輸入。

2.語音搜尋,google

就提供了這樣的服務,使用者可以通過語音輸入進行搜尋。

3.智慧型玩具,在今年的世博會上就有相應的海寶玩具,可以和它對詩等。

語音識別技術

中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...

語音識別技術概覽

語音識別基本和識別類似,都是從傳統的模型到深度神經網路dnn,再到rnn 深度卷積網路cnn。在端到端方面也是從隱馬爾科夫hmm到ctc lfmmi,再到attention方面 下面是一些模型列表 1.混合高斯 隱馬爾科夫模型 gmm hmm 2.深度神經網路 隱馬爾科夫模型 dnn hmm 3.深...

語音識別技術分享

1 什麼是語音 語音頻號從時域看就是一系列的波形包括振幅和頻率,但語音識別領域一般要從頻域對語音頻號進行分析。因為時域上我們很難找出組成語音的內在規律也就難以進行訊號分析與處理。但頻域上就不同了,我們知道任何複雜的波形都可以有不同頻率的正弦波所組成,而語普就是描述這一特徵的,它包括頻率成分和幅度資訊...