兩篇OCR結合深度學習的文獻讀後感

整理出與專案進展有關的小小認識，以下按順序分別命名為文獻1和文獻2

在不同的影象字元識別背景下（文獻1背景為驗證碼；文獻2為電商），基於深度學習的模型，以上兩篇文獻分別完成了各自ocr（光學字元識別）系統的構建。同樣，對於筆者自己的課題，即完成在購物小票背景下的字元識別，同樣也需要構建與之相對應的ocr系統。

文獻1中，作者摒棄傳統數字影象處理方法，構建基於深度學習的識別系統。該系統由編碼器-解碼器構成，分別採用vgg卷積神經網路和lstm作為支撐，同時對past-feeding和past-attention的影象標題演算法做出改進。

文獻2中，作者同樣摒棄了傳統方法，建立了由四大部分構成的完整ocr系統。首先，作者在第一部分利用卷積和池化來進行影象的特徵提取，在此方法下所得的影象特徵也可簡化後期操作；第二部分：文字定位，利用鄰近搜尋的方法整合特徵碎片，再用前後統計的方法對同一行字元進行分割；第三部分則是光學識別，基於cnn深度學習模型對百萬樣本進行訓練，得到了較好的單字識別模型；最後為提公升效果，作者加入了語言識別模型，同時用viterbi演算法進行動態規劃。

對影象預處理時，先將影象進行聚類，分割得到5個圖層；再進行卷積操作，目的是不斷提取高階抽象特徵（卷積核，不斷發現的細節紋理特徵）；根據畫素來劃分連通區域，再加入抗腐蝕要求，得到新的五個特徵層影象。進入池化步驟，將五個特徵層進行疊加，留下每層特徵最強的影象共同組成，保留盡可能多的（紋理/影象背景？）資訊。

文獻1對不同的背景問題，選取相對應的網路（如vgg），和該網路下合適的層數來解決問題。

進行演算法的選取：（編碼器（vgg）解碼器（lstm））

演算法的視覺化檢驗

兩篇英文文獻的架構簡析，僅供參考

這是一篇5頁的英文文獻，2011年ieee會議每頁兩欄第一頁 motiondetection and analysis with four different detectors 題目 1 摘要 15行每行約12字共約180字一句話說明主題，一句話說明本文研究方向，一句話說明本文作用，一句...

兩篇OCR結合深度學習的文獻讀後感

兩篇英文文獻的架構簡析，僅供參考

推薦兩篇 Grails 實戰的好文

推薦兩篇蟻族的自述文章

兩篇OCR結合深度學習的文獻讀後感

兩篇英文文獻的架構簡析，僅供參考

推薦兩篇 Grails 實戰的好文

推薦兩篇 蟻族 的自述文章

相關推薦

推薦兩篇蟻族的自述文章