一文帶你了解兩種Transformer文字識別方法

2022-07-11 15:24:12 字數 3358 閱讀 4685

由 堅強是說給別人聽的謊言 提交於 2020-11-27 12:47:35

摘要:受transformer模型的啟發,目前一些學者將該結構應用到文字行識別中,以替代rnn,取得了良好的效果,如在hga-str和 srn。
當前的文字行識別器為擁有更強的序列語義能力,模型多採用cnn + rnn的結構,如目前使用十分廣泛的兩個識別器crnn和aster,這些模型取得了非常好的效果。然而由於rnn只能採用序列計算,在目前大量採用平行計算裝置的前提下,rnn面臨著明顯的速度瓶頸。若棄用rnn只使用cnn,效能往往不盡如人意。在nlp領域,ashish vaswan[1]等人提出的transformer模型在語言理解相關任務上十分成功,並優於cnn和rnn效果,展現出transformer強大的序列建模能力。transformer模型基於attention實現,該操作可並行實現,因此該模型具有良好的並行性。

受transformer模型的啟發,目前一些學者將該結構應用到文字行識別中,以替代rnn,取得了良好的效果,如在hga-str[2]和 srn[3]。下面對兩種方法進行介紹,總體上,hga-str更接近原有的transformer的結構,使用了和transformer類似的解碼結構,而srn則是使用了transformer unit進行特徵提取,並採用該文作者提出的並行解碼器,整個模型擁有更好的可並行性。為較好理解下面兩篇文章,請參閱相關資料以了解transformer的原理。

對於不規則文字,文字分布在二維空間上,將其轉換成一維有一定難度,同時基於rnn的編碼解碼器無法做到並行,本文直接將2d的特徵輸入到attention-based 1d串行解碼器,解碼器採用transformer中的解碼器同樣的結構。同時,在編碼器部分,提取乙個全域性語義向量,與解碼器的輸入embedding向量合併,為解碼器提供全域性語義資訊。該模型結構如圖1所示。

圖 1. 模型的基本結構

編碼器介紹:該模型使用cnn進行特徵提取,並保持輸出的特徵為二維。並使用池化操作得到一維向量,作為全域性資訊表示。

解碼器介紹:編碼器主要元件有:masked self-attention用來建模**結果的依賴性;2d-attention用來連線編碼器和解碼器;以及乙個前饋層。具體實現和transformer文中的結構相同。同時為了更好的效能作者使用兩個方向進行解碼,結構如圖2所示。

圖 2.該方法使用雙向解碼器

該方法在多個英文基準資料集取得了較好的結果,具體結果可參見**。在速度上作者和兩種基於attention的方法進行對比有一定的優勢,如表1所示。

表 1. 速度對比

在作者進行的對比試驗中,乙個比較有意思的現象是,在編碼器裡面新增self-attention模組並不能提公升模型效能,在解碼器中新增才會對結果有提公升,如表2所示。這表明原本的transformer結構直接應用到文字識別任務上是不可行的,需要做相應的調整。

表 2. self-attention效能對比

與上一方法不同的是,srn採用完全不同的解碼方式,並引入全域性語義推理模組。就獲取語義資訊的方式而言,主流的attention-based方法基於rnn來實現,是一種採用單向序列方式進行建模的方法,如圖 3.(a)所示。這種方式有明顯的不足:

1)僅僅感知了歷史時刻的語義資訊,而無法獲取未來時刻的語義資訊;

2)如果較早時刻解碼出的錯誤字元,會為餘下時刻的解碼傳遞錯誤的語義資訊,導致誤差積累效應;

3)序列的解碼模式是相對低效的,特別是在模型**的環節。

圖 3. 兩種不同的傳遞語義資訊的方法

如圖4所示,srn由四部分組成:基礎網路backbone、並行的視覺特診提取模組(pvam)、全域性語義推理模組(gsrm) 和視覺語義融合的解碼器(vsfd)。給定一張輸入的文字影象,基於resnet50 + transformer unit的backbone從中提取出視覺2d feature map v;之後pvam會針對每個目標字元獲取其相應的視覺特徵g;gsrm會基於視覺特徵g獲取全域性語義資訊,並轉化為每個目標字元的語義特徵s;最後vsfd融合對齊的視覺特徵和語義特徵,**出相應字元。在訓練階段和推斷階段,每個序列中各個字元之間是並行。

圖 4. 方法的總體結構圖

pvam模組介紹:在backbone輸出了2d的視覺特徵圖之後,pvam會針對文字行中的每個字元,計算出相應attention map, 通過將其與feature map 按畫素加權求和,可得到每個目標字元對應的的視覺特徵。另外,pvam也用字元的閱讀順序取代上一時刻隱變數來引導計算當前時刻的attention map,實現了並行提取視覺特徵的目的。

gsrm模組介紹:gsrm會基於全域性語義資訊進行推理。具體過程為,首先將視覺過程轉換成語義特徵,使用交叉熵損失進行監督,並對其概率分布取argmax得到初始的分類結果,同時通過分類結果獲取每個字元的embedding向量,通過多層transformer unit後,得到經語義推理模組修正的**結果,同樣使用交叉熵損失進行監督。

vsfd 模組介紹:對pvam輸出的對齊的視覺特徵和gsrm輸出的全域性語義特徵進行融合,最後基於融合後的特徵進行**輸出。

該方法在多個英文基準資料集上取得了sota的結果。對於中文長文字的識別,srn相對於其他識別方法也有明顯優勢,如表3所示。

表 3.中文資料集結果(trw-l為長文字)

速度上,得益於整個模型的並行設計,srn擁有較小的推理時延,如表4所示。

表 4.推理速度介紹

reference

[1] 

[2] 

[3] 

點選關注,第一時間了解華為雲新鮮技術~

一文帶你了解可重入鎖

可重入鎖就是乙個執行緒給某個資源上了鎖之後,在不釋放鎖的情況下,繼續對該資源進行上鎖。那麼可重入鎖有什麼好處呢?可重入鎖降低了程式設計的複雜性 減少了死鎖的發生 舉個栗子 public class myreentrant if index 10 start 可重入鎖有兩種實現,分別是synchron...

一文帶你了解什麼是地磁系統

隨著 網際網路 的概念不斷深入人心,停車系統也被冠上的網際網路 之名,為車主出行和停車市場帶來了變革,地磁技術是我們比較常見的技術。今天們就聊聊地磁停車系統。原理在初中物理我們學過,地球是乙個巨大的磁場,在地球上的任意乙個地方,磁場是相對穩定的,當有鐵質等金屬物體進入磁場的時候,該磁場就會造成擾動。...

一文帶你了解場效電晶體

場效電晶體分類 結型場效電晶體和絕緣柵型場效電晶體 場效電晶體電路符號 場效電晶體的三個引腳分別表示為 g 柵極 d 漏極 s 源極 注 場效電晶體屬於電壓控制型元件,又利用多子導電故稱單極型元件,且具有輸入電阻高,雜訊小,功耗低,無二次擊穿現象等優點。場效應電晶體的優點 具有較高輸入電阻高 輸入電...