語音識別演算法閱讀之LAS

las:

listen, attented and spell,google

思想:

sequence to sequence的思想，模型分為encoder和decoder兩部分，首先將任意長的輸入序列通過encoder轉化為定長的特徵表達，然後輸入到decoder再轉化為任意長的輸出序列；相比於傳統sequence to sequence在decoder部分引入attention機制，讓模型自學習特徵相關性，有助於提公升識別效果，對靜音和雜訊具有較好魯棒性

其中，輸入序列x=(x1,x2,x3,....xt)，每個時間片聲學特徵為40維logfbank; 隱層狀態h＝(h1,h2,h3,....,hu),u,y1,y2,y3,....,ys,)，和分別代表起始和結束符號

模型：

其中， i為第i個時間片，j為第j個隱層；

其中，φ和ψ表示mlp網路

其中，|y|c為字元長度，實驗中λ＝0.008

細節：

效果：

實戰：

語音識別演算法閱讀之LAS

智慧型家居中語音識別演算法研究語音識別之DTW演算法

語音識別之 GMM HMM

語音識別基礎演算法動態時間規整演算法

語音識別演算法閱讀之LAS

智慧型家居中語音識別演算法研究 語音識別之DTW演算法

語音識別 之 GMM HMM

語音識別基礎演算法 動態時間規整演算法

相關推薦

智慧型家居中語音識別演算法研究語音識別之DTW演算法

語音識別之 GMM HMM

語音識別基礎演算法動態時間規整演算法