現代語音識別

一、發展歷程

隨著深度學習技術的發展從 2012 年開始，語音識別技術經歷了革命性的變化，基本可概括為三個階段：

首先從 hmm+dnn 系統公升級到 hmm+cnn/lstm 系統，再公升級到後來的 ctc 系統，近兩年則逐漸轉為基於 transformer 的純端到端系統。

與傳統的 dnn-hmm 混合模型相比，端到端語音識別系統指的是，省略掉了 gmm-hmm 系統得到對齊資訊和上下文相關音素的步驟，無需多次迭代，直接從神經網路開始訓練。主要包括連線時序分類（ctc）模型、遞迴神經網路轉換器（rnn-t）模型、基於注意力機制的序列到序列（attention based seq2seq）模型。傳統與端到端演算法對比：

問題：1.端到端技術的好處？

傳統語音演算法在不同語種識別基礎建模單元上，語言學資訊是不一樣的，如漢語是基於拼音的聲母韻母、英語則是英文的音素，這種技術架構對指定語種的語言學知識依賴較大，也難以擴充套件到多語種識別。端到端技術用統一的網路進行建模，儘量減少語種相關的發音詞典編輯、建模單元選擇等工作，基於資料驅動而非語言學資訊來構建系統，這樣後續成果也可以快速遷移到其他語言上。

2.端到端技術的侷限？

由於是純資料驅動，端到端語音識別系統沒有充分利用到先驗的各種語言學知識，在實際使用場景下想要達到比較好的效果，相比於傳統演算法需要更多的標註資料來做模型訓練，雖然系統構建簡化了但資料收集難度上公升了；而且和其它深度學習系統類似，模型的可解釋性不高，錯誤樣例的分析與優化難度大；此外，目前的端到端技術都是序列到序列的對映，缺少傳統系統中逐幀分類的資訊，因此對於一些需要非常精確的時間對齊資訊的場景並不適用。

3.目前較新端到端模型transformer

在端到端這個技術體系內，對於語音識別這種序列到序列（seq2seq）問題，參考機器翻譯的經驗以及業界最近的**成果，transformer 網路結構相比其它結構有更好的效能。採用基於注意力（attention）機制的 transformer 網路結構，並做了各種細節優化，如引入多工學習機制（multi-task learning），在編碼端加入 ctc 損失函式，加速模型收斂，同時在解碼時利用 ctc 得分避免 attention 錯誤；在解碼端引入逐字的語種分類任務，加強模型對語種的區分能力。

二、當前主流網路

聲學模型：

當前主流的深度學習語音識別系統中用於聲學模型建模的神經網路的結構主要有三種：

當然也可以結合這兩種，通過級聯或併聯，如2023年的cldnn。

實際應用中，對於高頻的、常用的詞或者詞串來說，n-gram的概率會更加的可信，而對於相對生僻的詞串來說，神經網路語言模型的輸出概率會更加可信，因此，我們會同時使用這兩種語言模型。為了減少計算量，通常會採用兩遍解碼的策略，先利用n-gram語言模型解碼得到多條候選識別結果（n-best），然後再利用神經網路語言模型和n-gram語言模型的平均輸出概率來對n-best進行重排序。

現代語音識別

C 語音識別（文字to語音語音to文字）

C 語音識別（文字to語音語音to文字）

語音識別技術

現代語音識別

C 語音識別（文字to語音 語音to文字）

C 語音識別（文字to語音 語音to文字）

語音識別技術

相關推薦

C 語音識別（文字to語音語音to文字）

C 語音識別（文字to語音語音to文字）