文字檢測演算法八 DeepText

目錄1. 概述：

2. fcn:

3. rpn：

4. bilinear sampling ：

5. text recognition ：

6. 總結：

提出了一種場景文字定位和識別方法。新穎性包括：在單個端到端傳遞的訓練文字檢測和識別，識別cnn的結構和其輸入層的幾何形狀保留文字的表徵，並使其解析度適應資料。所提出的方法在兩個標準資料集（icdar 2013和icdar 2015）上實現了端到端文字識別的最先進準確度，同時比競爭方法快乙個數量級 - 整個流程以10幀執行每秒在nvidia k80 gpu上。

整體流程，輸入先進行乙個基於yolov2 的全卷積網路，然後經過rpn網路，輸出經過nms過濾後的roi邊框，然後根據該邊框在最後一層卷積層上通過類似於stn的方式對映出高度固定的patch塊。然後基於ctc進行識別。再根據識別的結果進行nms過濾，得到最終結果。

這裡在訓練的時候，只取**邊框和targets的iou最大的邊框進行loss計算。而在測試的時候，如果也這樣做，會出現漏檢的情況。因此修改為通過乙個閾值的限制，只要高於固定閾值的都會進行前向傳播，後續再將得到的結果進行合併。

該基礎結構採用yolov2 的結構，使用了18個卷積層，5個pooling層。假設輸入為h*w*3，最終得到的featuremap大小為(w/32)* (h/32)*1024

首先rpn模組的anchor還是採用yolov2 中使用的基於kmeans的方式，在訓練集合上生成的包含了各種aspect ratio和scale的一共14個anchor，即k=14。

rpn模組會輸出**的中心座標rx，ry，寬高rw，rh，角度rseita，得分rp。一共6個維度的特徵。加上anchor的維度，最終將會輸出(w/32)* (h/32)*6k 的特徵圖。

座標的**方式和yolov2也一樣。角度seita是yolov2中沒有的。

如上式所示，rx，ry，rw，rh，rseita為需要**的值。

這裡**中心座標rx，ry，和寬高rw，rh來生成最終的邊框。最終的x，y，w，h分別表示中心座標相對於anchor中心的倍數和寬高相對於anchor寬高的倍數。

cx，cy為框的中心座標所在的grid cell 距離左上角第乙個grid cell的cell個數。

rx，ry為**的邊框的中心點座標。

σ()函式為logistic函式，將座標歸一化到0-1之間。最終得到的bx,by為歸一化後的相對於grid cell的值。

rw，rh，為**的邊框的寬，高。求exp函式後會得到anchor的不同倍數，包括小於1和大於1的。

aw，ah為anchor的寬，高。

seita等於rseita，為直接**的角度。角度區間為（-pi/2，pi/2）

該模組主要進行旋轉，平移，縮放的仿射變換。通過該變換，將roi區域都歸一化到固定32個畫素的高度。類似於stn的操作。和roi pooling操作還是有區別。roi pooling只能得到固定大小的roi區域，但是bilinear sampling 可以得到固定高度，寬度不一定的roi區域，很好的保證了aspect ratio。缺點就是，這塊沒法像roi pooling那樣走並行了。

識別模組的網路結構如下：

loss使用的是ctc loss。

（1）以前的檢測框架都是利用檢測的分數來過濾檢測框。但是本文利用識別結果的分數來對檢測框進行過濾，思想很好。更好的使用檢測輔助識別，識別輔助檢測。這樣做的優勢就是只需要乙個rpn模組就可以了，而不需要額外的後續的fast rcnn模組了。自然網路整體效率就會大大提公升。

（2）整體rpn檢測模組+ctc識別模組，相比mask text spotter只能識別26個字母和10個數字更加具有通用性。

文字檢測演算法八 DeepText

文字檢測之 craft檢測演算法

前景檢測演算法（八） SACON演算法

文字檢測演算法 EAST閱讀筆記

文字檢測演算法八 DeepText

文字檢測之 craft檢測演算法

前景檢測演算法（八） SACON演算法

文字檢測演算法 EAST閱讀筆記

相關推薦