百度語音識別技術突破巨頭崛起

語音識別行業正面臨新一輪的洗牌。

但隨之不久，蘋果、google和微軟都選擇了擺脫nuance的依賴，自建團隊開發語音業務。在那之後，nuance的市場份額節節**，2023年還高達60%的市場份額，一年時間縮水一半只剩31.1%(source：research and markets)。相比之下，google語音識別的市場份額增長明顯。

我們從多個角度分析。

1.語音識別新架構：用做影象的方法做語音

近些年來，我們發現在影象領域有乙個明顯的發展趨勢：越來越深的卷積神經網路層級(cnn)，從最初的8層，到19層、22層、乃至152層的網路結構。而隨著網路結構的加深，imagenet競賽的錯誤率也從2023年的16.4%逐步下降到3.57%。

imagenet競賽中，越來越深的cnn不斷重新整理著其效能

那麼，深度學習在影象領域的進展，是否能夠在語音識別上有所突破呢?

通常情況下，語音識別是基於時頻分析後的語音譜完成的。如果將卷積神經網路的思想應用在語音識別的聲學建模上，我們就可以把時頻譜當作一張影象來處理。而由於卷積神經網路的區域性連線和權重共享的特點，它具有很好的平移不變性，所以可以將它應用在語音識別中，而且還能克服語音頻號本身的多樣性(說話人自身、以及說話人間、環境等)。

deep cnn語音識別的建模過程

但這裡遇到乙個問題，雖然在imagenet競賽中得到廣泛關注的deep cnn結構能夠顯著提高效能，但由於無法實現實時的計算，其很難在產品模型中得到實際的應用。

乙個解決方案是借鑑residual連線的思想，訓練乙個數十層的包含residual連線的 deep cnn，以用於工業產品中。

模型結構採用：deep cnn + deep lstm。

建模方式：基於ctc的端對端建模。

2.新架構推動語音大規模產業化

從歷史來看，產品和系統真正的大規模使用和推廣，一般都來自於基礎性的變革和突破。

對於語音識別來說，真正能夠實現大規模使用的系統，一定要滿足：在不同場景、方言下的穩定性，大規模的訓練能力，極短的訓練時間，大大降低的機器耗費。這好比 android 一樣，穩定、支援海量應用和場景開發、開發時間短、開發成本低。

而deep cnn和lstm、ctc結合的架構，在以下幾個方面有顯著的優勢：

1)更強的通用性。使用乙個單獨的演算法完成從任務輸入端到輸出端的所有過程。

2)大規模訓練的能力。能夠在約10萬小時的精準標註語音資料中完成訓練。

3)大大降低服務成本。以ctc為例，它能夠讓語音識別解碼的計算量降下來，光這部分成本就能降低近1倍。

5)效能更優秀。以往語音系統將訓練過程拆解，人為干預多，但效果不一定好。端對端模型減少了人為干預，直接從輸入端到輸出端，一般效能會更好。

6)層數越深，效果越好。引入了深層cnn的概念，語音識別的效能得到顯著的提公升，正如李先剛博士所言：『the deeper , the better』。

3.語音識別以量取勝的同時，也以質取勝

語音識別技術經歷了長達60年的發展。2023年hinton提出了深度置信網路，掀起了深度學習的熱潮。2023年，hinton以及他的學生d. mohamed將深度神經網路應用於語音的聲學建模，在小詞彙量連續語音識別資料庫timit上獲得成功。從2023年開始，微軟的俞棟、鄧力等學者首先嘗試將深度學習技術引入到語音識別，隨後逐漸成為了主流。

而在以深度學習的發展脈絡下，語音識別的準確率和通用性，本質就在於：

資料量的多少，這很大程度來自於搜尋量、使用量的規模;

演算法的優劣，頂級人才在這方面有極其重要的作用;

計算能力的水平，尤其是在大規模產業化和成本因素下，fpga等專業硬體的發展水平也非常重要。

而在這三方面的比拼中，巨頭公司將會佔據極大的優勢，因為它們擁有最多的資料，最頂級的人才以及最強大的計算能力水平。所以當google開放語音識別api 後，在英語語音識別的市場中，google將比nuance有更大的優勢。

4.傳統專利池受到挑戰，競爭回歸技術

這種開放式創新和開放式智財權許可的結合，也許會成為智慧型語音未來的產業核心模式。這也意味著傳統語音的專利池，在快速發展、迭代的語音技術下，在更開放的語音聯盟下，會失去過去的保護作用。

5.人工智慧技術生態的重要作用

當google發布了語音開放api，其對nuance的打擊是致命的。這不僅僅是因為google在產品、技術上的優勢，而且也來自於google強大的人工智慧技術生態，例如以tensorflow為代表的深度學習引擎，因為大量的一線工作人員使用，其對語音識別領域的開發選擇有強大的影響力。

基於上面的分析，我們認為語音識別將進入大規模產業化的時代。而在核心技術和能力的比拼下，語音識別也將進入巨頭崛起，傳統語音公司稍顯沒落的時代。

百度語音識別技術突破巨頭崛起

百度語音識別學習（一）

搭乘百度語音識別技術，錄音啦識別率最高可達95

csharp 百度語音合成

百度語音識別技術突破 巨頭崛起

百度語音識別學習（一）

搭乘百度語音識別技術，錄音啦識別率最高可達95

csharp 百度語音合成

相關推薦

百度語音識別技術突破巨頭崛起