從零開始語音識別(5) 端到端的語音識別系統

2021-10-09 13:42:22 字數 1349 閱讀 9123

seq2seq

此模型長用於機器翻譯、語音識別。其優點是輸入輸出不需要等長,而且兩者長度不固定。

此模型包含兩個rnn結構,分別用於編碼與解碼。decoder網路直到解碼的序列是end才停止,因此可以實現變長的輸出。encoder將輸入進行編碼,將整個輸入的隱狀態輸入給decoder,可以實現輸入的變長。

seq2seq的瓶頸如圖中橙色方框標記所示,encoder與decoder之間傳遞資訊是通過encoder最後乙個的隱狀態。如果輸入的整個句子比較長那麼和有可能最後乙個隱狀態所包含的資訊不夠。因此可以通過attention解決這個問題。

attention

關鍵點:在decoder的每乙個步,只關注句子的特定部分。

從attention官網中擷取的可以看到,decoder通過attention機制生成的d

1d_1

d1​隱狀態更關注於encoder的e

1e_1

e1​、e

2e_2

e2​這兩個隱狀態。

將encoder的輸入換成語音特徵就可以實現端到端的語音識別。

transformer

也是encoder、decoder框架的一種

核心觀點就是利用單個rnn實現將語音特徵序列對映到文字序列。通過在輸出集合中引入空符號解決輸入與輸出不等長的問題。

是對ctc的增強

rnn-t相比其他e2e模型的優點:

• 使用單向encoder時,可以進行流式語音識別 ,也就是拿到一幀就可以解碼一步(主要是因為存在pred.network結構)

• las、speech transformer等必須等到一句話說完才

可以解碼

Deep Speech 端到端的語音識別

對於傳統的語音識別,通常會分為3個部分 語音模型,詞典,語言模型。語音模型和語言模型都是分開進行訓練的,因此這兩個模型優化的損失函式不是相同的。而整個語音識別訓練的目標 wer word error rate 與這兩個模型的損失函式不是一致的。對於端到端的語音識別,模型的輸入就為語音特徵 輸入端 而...

端到端語音翻譯中預訓練和微調的銜接方法

st speech translation,語音翻譯 asr automatic speech recognition,自動語音識別 mt machine translation,機器翻譯 tcen tandem connectionist encoding network,串聯編碼網路 摘要在端到...

端到端的文字檢測識別

選自iccv 2017 澳大利亞阿德萊德大學 沈春華老師組的作品 towards end to end text spotting with convolutional recurrent neural networks 是目前為止第一篇提出端到端 ocr文字檢測 識別的文章。文章主要3點貢獻 1 ...