這項技術竟然乙個字也不放過！

摘要：在日常生活工作中，我們難免會遇到一些問題，比如自己辛辛苦苦寫完的資料，好不容易列印出來卻發現原始檔丟了;收集了一些名片，卻要乙個乙個地錄入資訊，很麻煩；快遞公司的業務越來越好，但每天需要花費很多時間登記錄入運單，效率非常的低。

前面顯示：讓你把這個世界看得清清楚楚，真真切切

文︱flora

什麼是ocr？

ocr 是實時高效的定位與識別中的所有文字資訊，返回文字框位置與文字內容。支援多場景、任意版面下整**字的識別，以及中英文、字母、數字的識別。簡單來說，就是將上的文字內容，智慧型識別成為可編輯的文字，例如：

ocr的技術原理是什麼？

ocr本質是影象識別。其原理也和其他的影象識別問題基本一樣。包含兩大關鍵技術：文字檢測和文字識別。先將影象中的特徵進行提取並檢測目標區域，之後對目標區域的字元進行分割和分類。

以深度學習興起的時間為分割點，直至近五年之前，業界最為廣泛使用的仍然是傳統的ocr識別技術框架，而隨著深度學習的崛起，基於這一技術的ocr識別框架以另外一種新的思路迅速突破了原有的技術瓶頸（如文字定位、二值化和文字分割等），並已在工業界得到廣泛應用。

首先文字定位，接著進行傾斜文字矯正，之後分割出單字後，並對單字識別，最後基於統計模型（如隱馬爾科夫鏈，hmm）進行語義糾錯。

ocr技術的難點是什麼？

複雜背景、藝術字型、低解析度、非均勻光照、影象退化、字元形變、多語言混合、文字複雜版式、檢測框字元殘缺，等等。

如何克服這些難點？

通用印刷體的技術難點，使用場景

我們知道身份證識別可廣泛應用在金融行業中，在身份認證中，可以減少使用者的資訊輸入，提公升效率，提高使用者體驗，營業執照的識別完全省去了手工錄入的繁瑣，還可以為企業省去大量的人力資源成本，這些場景大家都已經比較熟悉。

對於通用印刷體有沒有什麼好的例子？

例如這個廣告，內容多字型多，中英文與數字混合，背景也比較隨意。咱們的ocr通過透視矯正、去模糊等，能大幅還原影象真實度，極大提公升演算法的精確性。

有時候也會遇到識別率不理想的情況，如何可以提高識別準確率？

首先會確認下當前的場景，造成準確度不高的原因。評估可提高的空間設計，之後做出相應的修改，列入預處理等等。

運單識別與傳統人工識別有什麼區別呢？

如果傳統人工識別按照3min/單，1000單需要6.25個人/天，保證運單時效則需要耗費大量人力，考慮人力成本則影響運單及時性，成本和服務難兩全。

我們的運單識別速度可以達到毫秒級/單，並支援24小時識別服務，業務增長時只需要投入計算用伺服器資源即可，彈性較大。

與傳統識別相比，不僅成本可以降低，提高準確性，還可以保護使用者的隱私洩露風險。

咱們的ocr文字識別技術，目前支援中文簡繁體、英文、數字、標點共10000+標籤，覆蓋上百種字型，生僻字版本更支援2w+標籤。

那咱們在行業中也有不少落地客戶了吧？

新版手q就用到了咱們的技術，在掃一掃、聊天視窗和空間大圖預覽共三個入口上支援了提取中文字的功能。

問答

文字識別在格式上有什麼要求？

多個場景中的ai落地實踐

「猜畫小歌」的一些細節和思考

低於0.01%的極致crash率是怎麼做到的？

雲學院 · 課程推薦 | 知乎kol，與你分享機器學習中如何做選擇

海量技術實踐經驗，盡在雲加社群！