語音識別技術

2021-04-13 09:45:17 字數 2008 閱讀 1925

中科院聲學所將為奧運會提供語音技術支援

日前,由首信集團(首都資訊發展股份****)牽頭、中科院聲學所參與其核心模組研製的「奧運會多語言服務」系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢、積極為「科技奧運」做貢獻方面取得了新的成果。

從2023年開始,聲學所就參與了由科技部和北京市科委組織,北京首信公司承擔的科技奧運「奧運綜合資訊服務關鍵技術及核心平台」——「863」重大專案的研製工作。這一專案於2023年順利通過驗收,將為290多萬名觀眾、30多萬名註冊人員以及奧運會期間來京的國內外遊客提供奧運賽事和城市相關的個性化的多語言綜合資訊服務。公眾將有望在任何時間、任何地點,以任何方式獲取自己需要的奧運資訊。

在該專案中,聲學所中科信利語音實驗室承擔了其中的」嵌入式多語種語音識別技術研究」子課題的研究,研發「嵌入式多語種語音識別引擎」。該引擎是「奧運綜合資訊服務核心平台」的乙個重要模組。該項技術的應用使使用者能夠通過語音方式方便自然地獲取奧運綜合服務資訊。例如,使用者可以通過手持裝置(如:手機,pda等)、資訊亭等,方便快捷地查詢獲取奧運資訊,如:賽況,交通,旅遊,餐飲等。對於熟悉漢語或英語的使用者,都可以方便使用。

該課題的研究成果除了在奧運綜合資訊服務平台中應用之外,還在夏新、商務通等國產手機裡面成功應用。

聲學所中科信利語音實驗室自成立以來多次贏得了國內語音技術權威性評測的第一名,目前已成為國內在語音識別以及音訊訊號處理領域規模最大、實力最強的研究機構,開發出具有國際一流水平的語音識別引擎以及多種音訊訊號處理技術模組,產品涵蓋電信級應用、**檢索、教育市場以及嵌入式終端等多個領域,是目前國內市場上唯一一家擁有自主智財權、並已開展大規模商業應用的語音技術研發單位,在電信市場的產品占有率已達到國內第一名的好成績。  (中科院聲學研究所 )

國家863計畫支援的語音合成技術成果獲blizzard challenge大賽綜合排名第一名

在剛剛結束的「blizzard challenge 2007」國際英文合成大賽上獲悉,科大訊飛報送的參賽系統獲得了本次大賽全部3項評測指標綜合排名第一名的優異成績。這是既去年科大訊飛在這一賽事上獲得全部評測指標第一名後,第二次蟬聯這一佳績。這一技術成果得到了國家863計畫的支援。此次奪標,充分體現了科大訊飛不僅在中文語音和語言技術領域獨占鰲頭,在英文語音合成技術上也已取得了穩固的領先地位。

blizzard challenge國際英文合成比賽是英語語音合成領域最具權威性、廣泛性的國際評測比賽。由美國卡耐基-梅隆大學(carnegie mellon university)和日本名古屋工業大學(nagoya institute of technology)聯合組織發起,旨在建立乙個統一的英文語音合成技術的評測平台,加強各語音研究機構之間的交流與溝通,促進語音技術研究的深入發展。

評測採取公平、公正、公開的原則,各參賽機構在主辦方提供的統一英文音庫的基礎上,採用自己的研究方法合成待測句子,所有合成效果隨機打亂後共享在網路上,由包括語音合成專家、美國本土學生和興趣人士三方面人員聯合評分。系統的評價指標包括自然度和可懂度等方面。

作為國際上規模最大、影響力最大的英文語音合成大賽,歷屆blizzard challenge都成為國際一流的科研單位和一流企業角逐英文語音合成技術桂冠的競技平台。本屆大賽的參賽單位達到了創記錄的16家,其中包括cmu (美國卡耐基-梅隆大學)、ibm 研究院、edinburgh university(英國愛丁堡大學)、atr(國際電氣通訊基礎技術研究所)、nitech (日本名古屋工業大學)等語音技術領域的世界頂尖高手。同時,在與上屆比賽準備時間相同的條件下,本屆大賽的語料庫從上屆的4000句擴充套件到了6000句,大大增加了參賽單位系統準備的難度。

在國家863等計畫支援下,經過「十五」期間的不懈努力,科大訊飛語音合成技術取得重要突破,達到了讓市場接受的地步,完全可以滿足社會各行業的應用要求,乙個新興的中文語音高科技產業由此誕生。

語音識別技術

雖然人從外部獲取資訊,絕大部分來自來自視覺,可是語音的地位一直很高的,它很好的表表達了人的特徵和清晰的收入方式。其中語音識別技術的地位又是很高的,可以讓機器在字面上明白你在說什麼,這是自然的人機互動的基礎。現在走在語音識別技術前沿的公司有科大訊飛,google 微軟。在我們的前面幾篇 blog 中已...

語音識別技術概覽

語音識別基本和識別類似,都是從傳統的模型到深度神經網路dnn,再到rnn 深度卷積網路cnn。在端到端方面也是從隱馬爾科夫hmm到ctc lfmmi,再到attention方面 下面是一些模型列表 1.混合高斯 隱馬爾科夫模型 gmm hmm 2.深度神經網路 隱馬爾科夫模型 dnn hmm 3.深...

語音識別技術分享

1 什麼是語音 語音頻號從時域看就是一系列的波形包括振幅和頻率,但語音識別領域一般要從頻域對語音頻號進行分析。因為時域上我們很難找出組成語音的內在規律也就難以進行訊號分析與處理。但頻域上就不同了,我們知道任何複雜的波形都可以有不同頻率的正弦波所組成,而語普就是描述這一特徵的,它包括頻率成分和幅度資訊...