CTC模型簡介

2021-08-05 20:49:15 字數 834 閱讀 2449

ctc(connectionist temporal classification),可以理解為基於神經網路的時序類分類。

比如語音識別

的一幀資料,很難給出乙個label,但是幾十幀資料就容易判斷出對應的發音label。

語音識別聲學模型的訓練屬於監督學習,需要知道每一幀對應的label才能進行有效的訓練,在訓練的資料準備階段必須要對語音進行強制對齊。 

ctc的引入可以放寬了這種一一對應的限制要求,只需要乙個輸入序列和乙個輸出序列即可以訓練。

有兩點好處:

1)、不需要對資料對齊和一一標註;

2)、ctc直接輸出序列**的概率,不需要外部的後處理。

ctc解決這一問題的方法是,在標註符號集中加乙個空白符號blank,然後利用rnn進行標註,最後把blank符號和**出的重複符號消除。比如有可能**除了乙個"--a-bb",就對應序列"ab"。這樣就讓rnn可以對長度小於輸入序列的標註序列進行**了。

rnn的訓練需要用到前向後向演算法(forward-backward algorithm),對於給定**序列,比如「ab」,在各個字元間插入空白符號,建立起籬笆網路(trellis),然後對將所有可能對映到給定**的序列都窮舉出來求和。

如上圖,傳統的framewise訓練需要進行語音和音素發音的對齊,比如「s」對應的一整段語音的標註都是s;而ctc引入了blank(該幀沒有**值),「s」對應的一整段語音中只有乙個spike(尖峰)被認為是s,其他的認為是blank。對於一段語音,ctc最後的輸出是spike的序列,不關心每乙個音素對應的時間長度。

CTC學習筆記(一) 簡介

connectionist temporal classification簡稱ctc,翻譯不太清楚,可以理解為基於神經網路的時序類分類。其中classification比較好理解,表示分類問題 temporal可以理解為時序類問題,比如語音識別的一幀資料,很難給出乙個label,但是幾十幀資料就容易...

語音筆記 CTC

ctc全稱,connectionist temporal classification,可以理解為基於神經網路的時序類分類。語音識別中聲學模型的訓練屬於監督學習,需要知道每一幀對應的label才能進行有效的訓練,在訓練的資料準備階段必須要對語音進行強制對齊。對於語音的一幀資料,很難給出乙個label...

bag of words 模型簡介

bow模型最初應用於文字處理領域,用來對文件進行分類和識別。bow 模型因為其簡單有效的優點而得到了廣泛的應用。其基本原理可以用以下例子來給予描述。給定兩句簡單的文件 文件 1 我喜歡跳舞,小明也喜歡。文件 2 我也喜歡唱歌。詞典 文件 1 1,2,1,1,1,0 文件 2 1,1,0,0,1,1 ...