聽懂方言的AI，科大訊飛中文語音識別背後推手

關於innovators under 35 china榜單

近年來，科大訊飛通過訊飛輸入法和訊飛聽見等產品逐漸為人所知。它們的語音識別表現之所以能夠在業界獨占鰲頭，其背後的中文語音識別系統功不可沒。科大訊飛ai研究院常務副院長劉聰，就是打造相關技術的主要負責人之一，他曾在2023年、2023年帶領團隊連續包攬國際英文多通道語音分離和識別大賽 (chime-4、chime-5) 的所有專案冠軍。

劉聰於2023年進入中國科學技術大學，攻讀電子資訊工程專業。大三時，他在機緣巧合之下聽說了訊飛語音實驗室，而後成功加入其中，開始了在語音識別領域的研究。2023年，劉聰博士畢業後正式成為訊飛研究院的一員，專心致力於大詞彙量連續語音識別系統的構建和優化。2023年科大訊飛正式推出的「訊飛語音雲」，凝聚了劉聰和團隊在語音識別領域不斷探索的成果，識別效果達到了當時業界領先的水平。

在劉聰加入訊飛語音實驗室時，深度學習方興未艾，語音識別技術還處於發展初期，主流的傳統方法包括基於隱馬爾可夫模型(hmm)的區分性訓練等，但仍有很多尚未被挖掘的研究方向。這些都吸引了他繼續學習和研究，曾多次短期訪問微軟亞洲研究院和加拿大約克大學，研究和優化語音識別技術的演算法。

此後，隨著深度學習技術的崛起，劉聰也將注意力轉移到了該領域。從深度神經網路(dnn)，到迴圈神經網路(rnn)，再到卷積神經網路(cnn)，劉聰和團隊數年來持續更新著語音識別系統的框架和模型。2023年，在解決了訓練收斂演算法等技術難關後，他和團隊提出了基於深度全序列卷積神經網路(dfcnn)的創新性語音識別框架，可以直接對整句語音而非區域性的語音幀進行建模，同時因為卷積計算過程做了很大程度共享、使得可以設計非常深和寬的模型結構，以看到更長的歷史和未來的語音上下文資訊。此外，因為dfcnn模型相對於傳統的rnn等模型可以同時抓住時域和頻域的結構資訊，因此在建模精度上也更勝一籌。

在大資料和新技術的加持下，訊飛語音識別系統實現了高速自動迭代，語音識別錯誤率保持每年30%的相對下降，目前一般場景下的識別準確率可達98%。在此基礎上，劉聰還帶領團隊創造多種了中文方言識別、語音即修即改等實用性很強的語音功能，讓科技更好地應用在生活中。

「因為深度學習的發展，在這兩個領域之間架起了一座橋梁，」劉聰在採訪中解釋道。依託於此前的深厚技術積累，他帶領團隊快速完成了語音識別到計算機視覺之間的演算法框架遷移和借鑑。這雖然聽起來簡單，但實際操作起來，需要攻克很多技術難關。

例如劉聰發現，光學字元識別(ocr)與語音識別一樣都可以歸為序列識別的範疇，因此語音識別中屬於序列建模的相關模型可以應用到ocr領域。同時ocr又是乙個計算機視覺問題，近年來計算機視覺領域在特徵表示學習方面取得了長足的進步。他和團隊結合特徵表示學習和序列建模的最新進展，大幅提公升了ocr識別效能。

大連哪個醫院**好

聽懂方言的AI，科大訊飛中文語音識別背後推手

科大訊飛和Tizen TTS語音合成引擎

訊飛linux 7 語音板使用科大訊飛離線語音合成

面經科大訊飛AI研究院

聽懂方言的AI，科大訊飛中文語音識別背後推手

科大訊飛和Tizen TTS語音合成引擎

訊飛linux 7 語音板使用科大訊飛離線語音合成

面經 科大訊飛AI研究院

相關推薦

面經科大訊飛AI研究院