兩篇OCR結合深度學習的文獻讀後感

2021-09-13 23:56:41 字數 775 閱讀 7811

整理出與專案進展有關的小小認識,以下按順序分別命名為文獻1和文獻2

在不同的影象字元識別背景下(文獻1背景為驗證碼;文獻2為電商),基於深度學習的模型,以上兩篇文獻分別完成了各自ocr(光學字元識別)系統的構建。同樣,對於筆者自己的課題,即完成在購物小票背景下的字元識別,同樣也需要構建與之相對應的ocr系統。

文獻1中,作者摒棄傳統數字影象處理方法,構建基於深度學習的識別系統。該系統由編碼器-解碼器構成,分別採用vgg卷積神經網路和lstm作為支撐,同時對past-feeding和past-attention的影象標題演算法做出改進。

文獻2中,作者同樣摒棄了傳統方法,建立了由四大部分構成的完整ocr系統。首先,作者在第一部分利用卷積和池化來進行影象的特徵提取,在此方法下所得的影象特徵也可簡化後期操作;第二部分:文字定位,利用鄰近搜尋的方法整合特徵碎片,再用前後統計的方法對同一行字元進行分割;第三部分則是光學識別,基於cnn深度學習模型對百萬樣本進行訓練,得到了較好的單字識別模型;最後為提公升效果,作者加入了語言識別模型,同時用viterbi演算法進行動態規劃。

對影象預處理時,先將影象進行聚類,分割得到5個圖層;再進行卷積操作,目的是不斷提取高階抽象特徵(卷積核,不斷發現的細節紋理特徵);根據畫素來劃分連通區域,再加入抗腐蝕要求,得到新的五個特徵層影象。進入池化步驟,將五個特徵層進行疊加,留下每層特徵最強的影象共同組成,保留盡可能多的(紋理/影象背景?)資訊。

文獻1對不同的背景問題,選取相對應的網路(如vgg),和該網路下合適的層數來解決問題。

進行演算法的選取:(編碼器(vgg)解碼器(lstm))

演算法的視覺化檢驗

兩篇英文文獻的架構簡析,僅供參考

這是一篇5頁的英文文獻,2011年ieee會議 每頁兩欄 第一頁 motiondetection and analysis with four different detectors 題目 1 摘要 15行 每行約12字 共約180字 一句話說明主題,一句話說明本文研究方向,一句話說明本文作用,一句...

推薦兩篇 Grails 實戰的好文

第一篇 a pattern to simplify grails controllers 利用模式來簡化grails的控制器。借助 groovy 的閉包特性,讓 controller 的 更加精煉和易測試。不過,作者只給出了乙個類腳手架的模板 為利用此模式簡化 指出乙個方向。如何結合自己專案的實際情...

推薦兩篇 蟻族 的自述文章

一名漂泊在外的蟻族寫給農民工父親的懺悔信 爸,昨天你問我存了多少錢,我說存了有八千多。你有點不高興,說工作都大半年了,三千二乙個月,怎麼也得存一萬五,我沒敢吱聲。爸,我是真的不敢說,其實我現在卡里只有五百塊不到,房租三百塊過幾天也要交了,桌上只有幾袋速食麵,唯一拿得出檯面的估計就是我前天買的漫畫書 ...