字元識別引擎Calamari總結

**：calamari - a high-performance tensorflow-based deep learning package for optical character recognition

github：

依賴：

python3

tensorflow1.8 灰度

高度48pix

基於ocropy 對訓練的每一行進行退縮操作

由於lstm的瞬態效應，每一行的左右各補16個白色的畫素

網路結構：

cnn=40:3x3,pool=2x2,cnn=60:3x3,pool=2x2,lstm=200,dropout=0.5

codec: ['', ' ', "'", '(', ')', ',', '-', '.', '0', '1', '2', '4', '7', '9', ':', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'k', 'l', 'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'v', 'w', 'y', 'z', '[', ']', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']

需要注意的是在tensorflow中blank是最後乙個label，而在這裡的codec裡面，blank是第乙個label。

layers stride }layers stride }layers stride }layers stride }layers solver: adam_solver dropout: 0.5 features: 48 classes: 66 backend ctc_merge_repeated: true learning_rate: 0.0010000000474974513

評價標準：

字元錯誤率cer（character error rate），編輯ed（edit distance ）。

整體公式表達了編輯距離和pred和groundtruth中較大值的比值。

cer=0表示所有字元匹配正確，cer=1表示沒有字元匹配正確

多模型融合：

**中作者使用了5折交叉訓練，可以分別訓練5個模型。然後進行模型融合，基於confidence_voter_default_ctc (default), confidence_voter_fuzzy_ctc, sequence_voter這3種投票方法，輸出最終識別結果。

總結：

crnn的思路，由於這裡的模型只有2個卷積層，比crnn的網路要小很多，所以使用了模型融合的思想。

純python製作，支援自己訓練和測試

目前只有識別模組，沒有檢測模組

字元識別引擎Calamari總結

Shape Context字元識別

OCR字元識別

字元識別 CRNN CTC

字元識別引擎Calamari總結

Shape Context字元識別

OCR字元識別

字元識別 CRNN CTC

相關推薦