CTC模型簡介

ctc（connectionist temporal classification），可以理解為基於神經網路的時序類分類。

比如語音識別

的一幀資料，很難給出乙個label，但是幾十幀資料就容易判斷出對應的發音label。

語音識別聲學模型的訓練屬於監督學習，需要知道每一幀對應的label才能進行有效的訓練，在訓練的資料準備階段必須要對語音進行強制對齊。

ctc的引入可以放寬了這種一一對應的限制要求，只需要乙個輸入序列和乙個輸出序列即可以訓練。

有兩點好處：

1）、不需要對資料對齊和一一標註；

2）、ctc直接輸出序列**的概率，不需要外部的後處理。

ctc解決這一問題的方法是，在標註符號集中加乙個空白符號blank，然後利用rnn進行標註，最後把blank符號和**出的重複符號消除。比如有可能**除了乙個"--a-bb"，就對應序列"ab"。這樣就讓rnn可以對長度小於輸入序列的標註序列進行**了。

rnn的訓練需要用到前向後向演算法（forward-backward algorithm），對於給定**序列，比如「ab」，在各個字元間插入空白符號，建立起籬笆網路（trellis），然後對將所有可能對映到給定**的序列都窮舉出來求和。

如上圖，傳統的framewise訓練需要進行語音和音素發音的對齊，比如「s」對應的一整段語音的標註都是s；而ctc引入了blank（該幀沒有**值），「s」對應的一整段語音中只有乙個spike（尖峰）被認為是s，其他的認為是blank。對於一段語音，ctc最後的輸出是spike的序列，不關心每乙個音素對應的時間長度。

CTC模型簡介

CTC學習筆記（一）簡介

語音筆記 CTC

bag of words 模型簡介

CTC模型簡介

CTC學習筆記（一） 簡介

語音筆記 CTC

bag of words 模型簡介

相關推薦

CTC學習筆記（一）簡介