如何精準實現OCR文字識別?

2021-09-13 02:42:33 字數 3776 閱讀 2538

本文由

雲計算基礎發表於

雲+社群專欄

在日常生活工作中,我們難免會遇到一些問題,比如自己辛辛苦苦寫完的資料,好不容易列印出來卻發現原始檔丟了。難的收集了一些名片,卻要很麻煩的乙個乙個錄入資訊。快遞公司的業務越來越好,但每天卻需要花費很多時間登記錄入運單,效率非常的低。

ocr 是實時高效的定位與識別中的所有文字資訊,返回文字框位置與文字內容。支援多場景、任意版面下整 **字的識別,以及中英文、字母、數字的識別。通俗的來說,就是將上的文字內容,智慧型識別成為可編輯的文字,例如:

ocr本質是影象識別。其原理也和其他的影象識別問題基本一樣。包含兩大關鍵技術:文字檢測和文字識別。先將影象中的特徵的提取並檢測目標區域,之後對目標區域的的字元進行分割和分類。

以深度學習興起的時間為分割點,直至近五年之前,業界最為廣泛使用的仍然是傳統的ocr識別技術框架,而隨著深度學習的崛起,基於這一技術的ocr識別框架以另外一種新的思路迅速突破了原有的技術瓶頸(如文字定位、二值化和文字分割等),並已在工業界得到廣泛應用。

首先文字定位,接著進行傾斜文字矯正,之後分割出單字後,並對單字識別,最後基於統計模型(如隱馬爾科夫鏈,hmm)進行語義糾錯。

複雜背景、藝術字型、低解析度、非均勻光照、影象退化、字元形變、多語言混合、文字行複雜版式、檢測框字元殘缺,等等。

我們知道身份證識別可廣泛應用在金融行業中,有使用者的身份認證中,可以減少使用者的資訊輸入,提公升效率,提高使用者體驗,營業執照的識別完全省去了手工錄入的繁瑣,還可以為企業省去大量的人力資源成本,這些場景大家都已經比較熟悉。

例如這個廣告,內容多字型,中英文與數字混合,背景也比較隨意。咱們的ocr通過透視矯正、去模糊等,能大幅還原影象真實度,極大提公升演算法的魯棒性。

首先會確認下當前的場景,造成準確度不高的原因。評估可提高的空間設計,之後做出相應的修改,列入預處理等等。

如果傳統人工識別按照3min/單,1000單需要6.25個人/天,保證運單時效則需要耗費大量人力,考慮人力成本則影響運單及時性,成本和服務難兩全。

我們的運單識別速度可以達到毫秒級/單,並支援24小時識別服務 ,業務增長時只需要投入計算用伺服器資源即可,彈性較大。

與傳統識別相比,不僅成本可以降低,提高準確性,還可以保護使用者的隱私洩露風險。

咱們的ocr文字識別技術,目前支援中文簡繁體、英文、數字、標點共10000+標籤,覆蓋上百種字型,生僻字版本更支援2w+標籤 。

新版手q就用到了咱們的技術,在掃一掃、聊天視窗和空間大圖預覽共三個入口上支援了提取中文字的功能。

經過上面的分享,使用者也提出了不少問題,我們來看看使用者都問了什麼?

q:您好,我想問下ocr 識別是否支援h5開發呢?

a:支援,介面是基於http協議,只要支援http協議都可以使用。

q:通用印刷體識別剩下的10%,有提高的思路嗎?

a:整體思路還是要回到我們的三大引擎上。逐一進行優化。

背景識別

定位引擎

字段識別引擎

q:目前印刷體識別上使用的思路是先分割後識別嗎?ocr支援離線識別嗎?

a:思路是先分割後識別,我們的ocr支援離線識別的。

q:ocr遇到無法分割或者分割錯誤的情況如何處理呢

a:很少有無法分割的情況。分割錯誤肯定會對最後的結果又影響。我們的技術,即便是再字元重疊的情況下也可以做出正確的分割。

a:我們會結合nlp技術,結合上下文進行智慧型糾錯。

a:中文(簡體和繁體),英文及數字。

q:之前有提到總的分類高達2w+,這種大分類模型是怎麼訓練的。

a:分級,分批訓練。

a:相比於證照類輸入圖來說,車牌輸入圖受限於實際場景配置的攝像監控裝置,及車輛位置的隨機變化,產生各種極端角度及光照案例,其質量變化範圍遠大於證照類採集影象。

a:輕微的弧度我們可以通過技術處理,嚴重變形的相對比較困難。

q:除了支援標準車牌,我們支援識別新能源車嗎?

a:支援的,我們目前已支援藍牌、黃牌、軍牌、警牌、教練車牌、新能源車牌等,目前識別率可達到97%-98%~

q:請問針對物流公司司機手機拍的**,一是面單不平整,二是光線有的不理想,三是拍照角度有傾斜。針對以上情況技術方面有沒有解決辦法?

a:拍照角度可以通過幾何演算法矯正。光線的問題也可以通過影象的歸一化增強。單面不平整,這個得看不平整到什麼程度了。

q:車輛執行中,您這個80%的準確率是指車輛運動過程中拍攝下來的圖還是車輛停止時候拍的圖?

a:我們是按幀處理的。

q:是否可以經過一定資料積累,糾錯等訓練,從而使其能識別手寫文字?

a:我們已實現手寫體識別~

q:ocr對運動模糊的場景識別率有多高

a:模糊的程度差異性很大。不好做標準化的統計。影象質量不佳,最直白的處理方法是做影象的增強。

a:可以看看咱們社群的文章哦~很多文章都是鵝廠的精華呢~

q:有點模糊,能不能說下比較好具體演算法,這個太籠統了

a:有很多的濾波器都可以處理不同程度的模糊影象。也有採用神經網路的的方式處理。

)提出自己的疑問,屆時會有邀請相關的產品同學回答您的問題。

)服務。

/ocr/namecard),查ocr的各服務呼叫情況。

問答ocr文字識別技術有哪些應用?

文字識別ocr知識資料全集(入門/高階/**/綜述/**/專家,附檢視)

我的ai之路 —— ocr文字識別快速體驗版

借你一雙「慧眼」:一文讀懂ocr文字識別︱技術派

海量技術實踐經驗,盡在雲加社群!

騰訊Ocr文字識別

implementation com.qcloud qcloud image sdk 2.3.6 初始化識別程式 imageclient.new domain recognition image myqcloud com imageclient.new domain recognition imag...

ocr文字識別功能

工作中,我們經常會碰到要將型別的文字或文件進行數位化錄入,因此類文件無法直接複製或編輯,便需要人工手動進行輸入,不僅耗時費力 出錯率高且對於企業而言,人力成本高 在人工智慧應用較為普遍的現在,ocr文字識別技術脫穎而出,幫助人們擺脫了手動輸入的繁瑣,提公升了工作效率。應對市場需求與技術的不斷進步,依...

OCR文字識別HTTP restapi介面設計

是通過http 的boundary的方式新增.很標準的格式但是感覺還是不夠簡潔,上面的格式拼起來比較累 我們設計的api如下將使用者需要傳遞的字段拼成k v格式的字串 key2 value1 key2 value2 image imagedata 其中imagedata為的二進位制進行base64編...