聽懂方言的AI,科大訊飛中文語音識別背後推手

2021-09-11 16:27:09 字數 1279 閱讀 6537

關於innovators under 35 china榜單

近年來,科大訊飛通過訊飛輸入法和訊飛聽見等產品逐漸為人所知。它們的語音識別表現之所以能夠在業界獨占鰲頭,其背後的中文語音識別系統功不可沒。科大訊飛ai研究院常務副院長劉聰,就是打造相關技術的主要負責人之一,他曾在2023年、2023年帶領團隊連續包攬國際英文多通道語音分離和識別大賽 (chime-4、chime-5) 的所有專案冠軍。

劉聰於2023年進入中國科學技術大學,攻讀電子資訊工程專業。大三時,他在機緣巧合之下聽說了訊飛語音實驗室,而後成功加入其中,開始了在語音識別領域的研究。2023年,劉聰博士畢業後正式成為訊飛研究院的一員,專心致力於大詞彙量連續語音識別系統的構建和優化。2023年科大訊飛正式推出的「訊飛語音雲」,凝聚了劉聰和團隊在語音識別領域不斷探索的成果,識別效果達到了當時業界領先的水平。

在劉聰加入訊飛語音實驗室時,深度學習方興未艾,語音識別技術還處於發展初期,主流的傳統方法包括基於隱馬爾可夫模型(hmm)的區分性訓練等,但仍有很多尚未被挖掘的研究方向。這些都吸引了他繼續學習和研究,曾多次短期訪問微軟亞洲研究院和加拿大約克大學,研究和優化語音識別技術的演算法。

此後,隨著深度學習技術的崛起,劉聰也將注意力轉移到了該領域。從深度神經網路(dnn),到迴圈神經網路(rnn),再到卷積神經網路(cnn),劉聰和團隊數年來持續更新著語音識別系統的框架和模型。2023年,在解決了訓練收斂演算法等技術難關後,他和團隊提出了基於深度全序列卷積神經網路(dfcnn)的創新性語音識別框架,可以直接對整句語音而非區域性的語音幀進行建模,同時因為卷積計算過程做了很大程度共享、使得可以設計非常深和寬的模型結構,以看到更長的歷史和未來的語音上下文資訊。此外,因為dfcnn模型相對於傳統的rnn等模型可以同時抓住時域和頻域的結構資訊,因此在建模精度上也更勝一籌。

在大資料和新技術的加持下,訊飛語音識別系統實現了高速自動迭代,語音識別錯誤率保持每年30%的相對下降,目前一般場景下的識別準確率可達98%。在此基礎上,劉聰還帶領團隊創造多種了中文方言識別、語音即修即改等實用性很強的語音功能,讓科技更好地應用在生活中。

「因為深度學習的發展,在這兩個領域之間架起了一座橋梁,」劉聰在採訪中解釋道。依託於此前的深厚技術積累,他帶領團隊快速完成了語音識別到計算機視覺之間的演算法框架遷移和借鑑。這雖然聽起來簡單,但實際操作起來,需要攻克很多技術難關。

例如劉聰發現,光學字元識別(ocr)與語音識別一樣都可以歸為序列識別的範疇,因此語音識別中屬於序列建模的相關模型可以應用到ocr領域。同時ocr又是乙個計算機視覺問題,近年來計算機視覺領域在特徵表示學習方面取得了長足的進步。他和團隊結合特徵表示學習和序列建模的最新進展,大幅提公升了ocr識別效能。

大連哪個醫院**好

科大訊飛和Tizen TTS語音合成引擎

最近在做乙個文字轉語音tts text to speech 的第三方軟體封裝,使用的是國內語音技術龍頭安徽科大訊飛公司提供的離線引擎aisound5.0,主要用於汽車導航用途。科大訊飛還提供了aitalk用於語音識別,aiwrite用於手寫識別服務等。另外還有針對6種平台的sdk和開發示例。一 科大...

訊飛linux 7 語音板使用科大訊飛離線語音合成

0x00 離線語音合成介紹 語音合成技術 text to speech,簡稱tts 是可以將文字轉換成語音檔案的技術。而且合成的語音檔案,可以根據不同場景需要而合成出不同音色 語速和語調的聲音,讓合成的語音就跟真人說話的聲音幾乎一樣。利用這項技術我們就可以讓我們的機械人 電腦 手機 音箱等各種電子裝...

面經 科大訊飛AI研究院

面試崗位 計算機視覺演算法工程師 一面 面試時長 45分鐘 面試內容 自我介紹 問及專案中的語音 人臉 標題 模態缺失相關細節 簡歷中選擇乙個專案介紹 學生買票行為分析及 想做研究還是工程 c 能力 期望薪資和期望工作地點 問我有沒有什麼想問的 面試評價 回答度100 面試崗位 計算機視覺演算法工程...