語音識別技術概覽

2021-10-05 08:32:18 字數 889 閱讀 3031

語音識別基本和識別類似,都是從傳統的模型到深度神經網路dnn,再到rnn、深度卷積網路cnn。

在端到端方面也是從隱馬爾科夫hmm到ctc、lfmmi,再到attention方面…

下面是一些模型列表:

1.混合高斯-隱馬爾科夫模型 gmm-hmm

2.深度神經網路-隱馬爾科夫模型 dnn-hmm

3.深度迴圈神經網路-隱馬爾科夫模型 rnn-hmm

4.深度卷積神經網路-隱馬爾科夫模型 cnn-hmm

5.n-gram模型

6.ctc

7.lfmmi(lattice free maximum mutual information)無詞圖最大互資訊

8.連線時序分類-長短時記憶模型 ctc-lstm

9.注意力模型 attention

混合高斯-隱馬爾科夫模型 gmm-hmm。神經網路出現前的模型,20世紀80年初。

利用迴圈神經網路可以利用語音上下文相關的資訊,得到更加準確地資訊,而gur又能選擇性的保留需要的長時資訊,使用雙向rnn又能夠充分的利用上下文訊號。

但該方法缺點是一句話說完之後才能進行識別,且訓練相對cnn較慢

科大訊飛結合dnn和rnn特點,研發了前饋型序列記憶神經網路(feed-forward sequential memory network,fsmn)解決了雙向gru的引數過多和實時性較差的缺點,它利用乙個記憶模組,包含了上下幾幀資訊,能夠得到不輸於雙向gru-ctc的識別結果。

2023年,科大訊飛提出了一種使用深度卷積神經網路來對時頻圖進行識別的方法,就是全序列卷積神經網路dfcnn(deep fully convolutional neural network)。

dfcnn先對時域的語音頻號進行傅利葉變換得到語音的語譜圖,dfcnn直接將一句語音轉化成一張影象作為輸入。

語音識別技術

中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...

語音識別技術

雖然人從外部獲取資訊,絕大部分來自來自視覺,可是語音的地位一直很高的,它很好的表表達了人的特徵和清晰的收入方式。其中語音識別技術的地位又是很高的,可以讓機器在字面上明白你在說什麼,這是自然的人機互動的基礎。現在走在語音識別技術前沿的公司有科大訊飛,google 微軟。在我們的前面幾篇 blog 中已...

語音識別技術分享

1 什麼是語音 語音頻號從時域看就是一系列的波形包括振幅和頻率,但語音識別領域一般要從頻域對語音頻號進行分析。因為時域上我們很難找出組成語音的內在規律也就難以進行訊號分析與處理。但頻域上就不同了,我們知道任何複雜的波形都可以有不同頻率的正弦波所組成,而語普就是描述這一特徵的,它包括頻率成分和幅度資訊...