Deep Speech 端到端的語音識別

2021-08-04 02:15:17 字數 1203 閱讀 1650

對於傳統的語音識別,通常會分為3個部分:語音模型,詞典,語言模型。語音模型和語言模型都是分開進行訓練的,因此這兩個模型優化的損失函式不是相同的。而整個語音識別訓練的目標(wer:word error rate)與這兩個模型的損失函式不是一致的。

對於端到端的語音識別,模型的輸入就為語音特徵(輸入端),而輸出為識別出的文字(輸出端),整個模型就只有乙個神經網路的模型,而模型的損失採用的ctc loss。這樣模型就只用以乙個損失函式作為訓練的優化目標,不用再去優化一些無用的目標了。

deep speech1的結構如下圖所示:

全連線層

網路的前三層為全連線層,第乙個全連線層的輸入為語音的頻譜資料(注意:圖中是把5幀的頻譜資料當做乙個 xt

輸入到隱藏單元中,因為可能乙個單詞的發音對應了多個幀的頻譜資料)。全連線層的輸出計算公式為:h(

l)t=

g(w(

l)h(

l−1)

t+b(

l))

其中 g()

為隱藏單元的啟用函式,本文中使用了clipped relu作為隱藏單元的啟用函式,

w 為權重矩陣,

b為偏置,h(

l−1)

t 為第 (l

−1) 層,第

t 個單元的輸出。g(

z)=m

in,20

}雙向rnn層

第4層為雙向的rnn層,其中 h(

f)t 為前向(從左至右)的rnn層, h(

b)t 為反向(從右至左)的rnn層,計算公式如下所示:

以前向rnn為例,其中

而此處的g()為之前敘述的clipped relu函式。

而網路的第五層則是非rnn層,主要是將第4層中的前向rnn和反向rnn求和作為隱藏單元的輸出,然後經過的計算與普通的全連線層相同,其計算公式如下所示:

最後的第六層為softmax層,**的是每個時間段內,將該段時間的語音識別為每個字母的概率。

模型採用的損失函式為ctc loss,有關於ctc loss的相關介紹可以檢視我的另一篇部落格。

端到端學習

傳統的影象識別問題 將過程分解為預處理,特徵提取和選擇,分類器設計等若干步驟。優點 把複雜的問題分解為簡單 可控且清晰的若干小的子問題。缺點 儘管可以在子問題上得到最優解,但子問題上的最優解並不意味著就能得到全域性問題的最後解。深度學習影象識別 提供了一種端到端的學習正規化 整個學習的流程並不進行人...

IM 端到端加密

資訊保安領域的大多數專家都承認,端到端加密是確保資料交換安全的最可靠方法之一。按照這種方法,在端到端加密應用之間傳送的訊息只能由這些應用的使用者讀取,任何第三方都無法讀取。通過使用唯一金鑰進行資料加密和解密,可以實現此類功能。只有終端使用者可以生成和儲存這些金鑰。端到端加密系統旨在確保,即使不法分子...

端到端時延

我們現在考慮從源到目的地的總時延 假定在源主機和目的主機之間有 n 1 臺路由器,我們還要假設該網路此時是無擁塞的 因此排隊時延是微不足道的 dend end n 式中 d trans l r 其中 l 是分組長度。即傳輸時延 傳播時延 處理時延 traceroute 是乙個簡單的程式,它能夠在任何...