語音識別演算法閱讀之LAS

2022-07-18 13:21:13 字數 1368 閱讀 4563

las:

listen, attented and spell,google

思想:

sequence to sequence的思想,模型分為encoder和decoder兩部分,首先將任意長的輸入序列通過encoder轉化為定長的特徵表達,然後輸入到decoder再轉化為任意長的輸出序列;相比於傳統sequence to sequence在decoder部分引入attention機制,讓模型自學習特徵相關性,有助於提公升識別效果,對靜音和雜訊具有較好魯棒性

其中,輸入序列x=(x1,x2,x3,....xt),每個時間片聲學特徵為40維logfbank; 隱層狀態h=(h1,h2,h3,....,hu),u,y1,y2,y3,....,ys,),和分別代表起始和結束符號

模型:

其中, i為第i個時間片,j為第j個隱層;

其中,φ和ψ表示mlp網路

其中,|y|c為字元長度,實驗中λ=0.008

細節:

效果:

實戰:

智慧型家居中語音識別演算法研究 語音識別之DTW演算法

一 語音識別 在介紹dtw演算法之前,首先簡單了解一下語音識別的操作步驟。主要有5個步驟,具體流程如圖1所示。圖1 語音識別流程圖 1預處理 提取真正需要分析的音訊訊號,主要包括靜音切除和聲音分幀兩部分操作。其中靜音切除部分主要採用的是語音活動檢測 voice activity detection,...

語音識別 之 GMM HMM

gmm,gaussian mixture model,gmm,高斯混合模型。資料往往不知道是哪個高斯分布,這給gmm的引數初始化帶來困難。所有聚類演算法都可用於此,常用的有k means lbg等。模型自適應,由於各地口音,採集裝置,環境雜訊等因素的差異,已訓練過的gmm hmm很可能和新領域的測試...

語音識別基礎演算法 動態時間規整演算法

本文首發於 演算法社群 dspstack.com,請註明出處。動態時間規整演算法,dynamic time wraping,縮寫為dtw,是語音識別領域的乙個基礎演算法。dtw的提出是為了解決或盡量解決在語音識別當中的孤立詞識別不正確的問題。該問題簡單描述為 在識別階段,將輸入語音的特徵向量時間序列...