Deep Speech 端到端的語音識別

對於傳統的語音識別，通常會分為3個部分：語音模型，詞典，語言模型。語音模型和語言模型都是分開進行訓練的，因此這兩個模型優化的損失函式不是相同的。而整個語音識別訓練的目標（wer：word error rate）與這兩個模型的損失函式不是一致的。

對於端到端的語音識別，模型的輸入就為語音特徵（輸入端），而輸出為識別出的文字（輸出端），整個模型就只有乙個神經網路的模型，而模型的損失採用的ctc loss。這樣模型就只用以乙個損失函式作為訓練的優化目標，不用再去優化一些無用的目標了。

deep speech1的結構如下圖所示：

全連線層

網路的前三層為全連線層，第乙個全連線層的輸入為語音的頻譜資料（注意：圖中是把5幀的頻譜資料當做乙個 xt

輸入到隱藏單元中，因為可能乙個單詞的發音對應了多個幀的頻譜資料）。全連線層的輸出計算公式為：h(

l)t=

g(w(

l)h(

l−1)

t+b(

l))

其中 g()

為隱藏單元的啟用函式，本文中使用了clipped relu作為隱藏單元的啟用函式，

w 為權重矩陣，

b為偏置，h(

l−1)

t 為第 (l

−1) 層，第

t 個單元的輸出。g(

z)=m

in,20

}雙向rnn層

第4層為雙向的rnn層，其中 h(

f)t 為前向（從左至右）的rnn層， h(

b)t 為反向（從右至左）的rnn層，計算公式如下所示：

以前向rnn為例，其中

而此處的g()為之前敘述的clipped relu函式。

而網路的第五層則是非rnn層，主要是將第4層中的前向rnn和反向rnn求和作為隱藏單元的輸出，然後經過的計算與普通的全連線層相同，其計算公式如下所示：

最後的第六層為softmax層，**的是每個時間段內，將該段時間的語音識別為每個字母的概率。

模型採用的損失函式為ctc loss，有關於ctc loss的相關介紹可以檢視我的另一篇部落格。