從零開始語音識別（5）端到端的語音識別系統

seq2seq

此模型長用於機器翻譯、語音識別。其優點是輸入輸出不需要等長，而且兩者長度不固定。

此模型包含兩個rnn結構，分別用於編碼與解碼。decoder網路直到解碼的序列是end才停止，因此可以實現變長的輸出。encoder將輸入進行編碼，將整個輸入的隱狀態輸入給decoder，可以實現輸入的變長。

seq2seq的瓶頸如圖中橙色方框標記所示，encoder與decoder之間傳遞資訊是通過encoder最後乙個的隱狀態。如果輸入的整個句子比較長那麼和有可能最後乙個隱狀態所包含的資訊不夠。因此可以通過attention解決這個問題。

attention

關鍵點：在decoder的每乙個步，只關注句子的特定部分。

從attention官網中擷取的可以看到，decoder通過attention機制生成的d

1d_1

d1隱狀態更關注於encoder的e

1e_1

e1、e

2e_2

e2這兩個隱狀態。

將encoder的輸入換成語音特徵就可以實現端到端的語音識別。

transformer

也是encoder、decoder框架的一種

核心觀點就是利用單個rnn實現將語音特徵序列對映到文字序列。通過在輸出集合中引入空符號解決輸入與輸出不等長的問題。

是對ctc的增強

rnn-t相比其他e2e模型的優點：

• 使用單向encoder時，可以進行流式語音識別，也就是拿到一幀就可以解碼一步（主要是因為存在pred.network結構）

• las、speech transformer等必須等到一句話說完才

可以解碼

從零開始語音識別（5） 端到端的語音識別系統