這項技術竟然乙個字也不放過!

2021-09-11 11:00:17 字數 1802 閱讀 4331

摘要:在日常生活工作中,我們難免會遇到一些問題,比如自己辛辛苦苦寫完的資料,好不容易列印出來卻發現原始檔丟了;收集了一些名片,卻要乙個乙個地錄入資訊,很麻煩;快遞公司的業務越來越好,但每天需要花費很多時間登記錄入運單,效率非常的低。

前面顯示:讓你把這個世界看得清清楚楚,真真切切

文︱flora

什麼是ocr?

ocr 是實時高效的定位與識別中的所有文字資訊,返回文字框位置與文字內容。支援多場景、任意版面下整**字的識別,以及中英文、字母、數字的識別。簡單來說,就是將上的文字內容,智慧型識別成為可編輯的文字,例如:

ocr的技術原理是什麼?

ocr本質是影象識別。其原理也和其他的影象識別問題基本一樣。包含兩大關鍵技術:文字檢測和文字識別。先將影象中的特徵進行提取並檢測目標區域,之後對目標區域的字元進行分割和分類。

以深度學習興起的時間為分割點,直至近五年之前,業界最為廣泛使用的仍然是傳統的ocr識別技術框架,而隨著深度學習的崛起,基於這一技術的ocr識別框架以另外一種新的思路迅速突破了原有的技術瓶頸(如文字定位、二值化和文字分割等),並已在工業界得到廣泛應用。

首先文字定位,接著進行傾斜文字矯正,之後分割出單字後,並對單字識別,最後基於統計模型(如隱馬爾科夫鏈,hmm)進行語義糾錯。

ocr技術的難點是什麼?

複雜背景、藝術字型、低解析度、非均勻光照、影象退化、字元形變、多語言混合、文字複雜版式、檢測框字元殘缺,等等。

如何克服這些難點?

通用印刷體的技術難點,使用場景

我們知道身份證識別可廣泛應用在金融行業中,在身份認證中,可以減少使用者的資訊輸入,提公升效率,提高使用者體驗,營業執照的識別完全省去了手工錄入的繁瑣,還可以為企業省去大量的人力資源成本,這些場景大家都已經比較熟悉。

對於通用印刷體有沒有什麼好的例子?

例如這個廣告,內容多字型多,中英文與數字混合,背景也比較隨意。咱們的ocr通過透視矯正、去模糊等,能大幅還原影象真實度,極大提公升演算法的精確性。

有時候也會遇到識別率不理想的情況,如何可以提高識別準確率?

首先會確認下當前的場景,造成準確度不高的原因。評估可提高的空間設計,之後做出相應的修改,列入預處理等等。

運單識別與傳統人工識別有什麼區別呢?

如果傳統人工識別按照3min/單,1000單需要6.25個人/天,保證運單時效則需要耗費大量人力,考慮人力成本則影響運單及時性,成本和服務難兩全。

我們的運單識別速度可以達到毫秒級/單,並支援24小時識別服務 ,業務增長時只需要投入計算用伺服器資源即可,彈性較大。

與傳統識別相比,不僅成本可以降低,提高準確性,還可以保護使用者的隱私洩露風險。

咱們的ocr文字識別技術,目前支援中文簡繁體、英文、數字、標點共10000+標籤,覆蓋上百種字型,生僻字版本更支援2w+標籤 。

那咱們在行業中也有不少落地客戶了吧?

新版手q就用到了咱們的技術,在掃一掃、聊天視窗和空間大圖預覽共三個入口上支援了提取中文字的功能。

問答

文字識別在格式上有什麼要求?

多個場景中的ai落地實踐

「猜畫小歌」的一些細節和思考

低於0.01%的極致crash率是怎麼做到的?

雲學院 · 課程推薦 | 知乎kol,與你分享機器學習中如何做選擇

海量技術實踐經驗,盡在雲加社群!

累就乙個字

最近也學了一把跳槽,新公司坐落在北師大校園裡,環境是一流,可惜就是遠過頭了,一天就要浪費兩個小時在車上,比以前還慘。值得安慰的是公司坐落在學校裡,每天在校園裡看到那些青春活力的學生,也會覺得自己年輕了好幾歲,感覺非常棒。最重要的是北師大靚女成群,真是大飽眼福啊 別鄙視咱,哪個男人不喜歡欣賞美女,除非...

愛就乙個字

撥開天空的烏雲 像藍絲絨一樣美麗 我為你翻山越嶺 卻無心看風景 我想你身不由己 每個念頭有新的夢境 但願你沒忘記 我永遠保護你 不管風雨的打擊 全心全意 兩個人相互輝映 光芒勝過夜晚繁星 我為你翻山越嶺 卻無心看風景 我想你鼓足勇氣 憑愛的地圖散播訊息 但願你沒忘記 我永遠保護你 從此不必再流浪找尋...

乙個字等於多少位元組?

在這個特定計算機中,字是其用來一次性處理事務的乙個固定長度的位 bit 組。現代計算機的字長通常為16 32 64位。結合以上兩句,我覺得乙個字佔多少位元組並不是那麼絕對的,要看你是哪個處理器 處理器的位數決定了能夠處理一條指令的長度 以前我看書上也是說乙個字就是兩個位元組,這是因為我們之前接觸的8...