OCR技術的發展及應用

2021-08-16 11:06:58 字數 2108 閱讀 2797

一、ocr技術的發展歷程

ocr(optical character recognition)的概念誕生於2023年,由德國的科學家tausheck首先提出,並且申請了專利。幾年後,美國科學家handel也提出了對文字進行識別的想法,但這種夢想直到計算機誕生後才變成為現實。現在這一技術已經由計算機來實現,ocr的意思也就演變成為利用光學技術對文字和字元進行掃瞄識別,並將其轉化為計算機內碼。

據記載,第乙個ocr軟體是在2023年開發的era(electric reading automation)。它是基於窺視孔方法實現的,識別的速度是每秒120個英文本母。在此以後,世界範圍內廣泛地進行著ocr技術的研究和開發工作。從ocr技術的發展歷程來看,可分為三個階段:

第一階段:第一代ocr產品出現於60年代初期,ncr公司、farrington公司、ibm公司分別研製出了自己的ocr軟體。最早的ocr產品應該是ibm公司的ibm1418。它只能識別印刷體的數字、英文本母及部分符號,並且必須是指定的字型。

第三階段:第三代ocr產品主要解決的技術問題就是對於質量較差的文件及大字符集的識別,例如漢字的識別。最先投入漢字識別研究的日本東芝公司,於2023年發布了其識別印刷體日文漢字的ocr系統-ocr-v595,其識別速度為每秒70~100個漢字,最高識別率達到99.5%。

二、中文ocr

我國在ocr技術方面的研究工作起步較晚,在70年代才開始對數字、英文本母及符號的識別進行研究;70年代末開始進行漢字識別的研究;到2023年漢字識別的研究進入乙個實質性階段,取得了較大的成果。當年,國家863計畫資訊領域課題組織了清華大學、北京資訊工程學院、瀋陽自動化所三家單位聯合進行中文ocr軟體的開發工作。至2023年,清華大學率先推出了國內第一套中文ocr軟體--清華文通th-ocr1.0版,至此中文ocr正式從實驗室走向了市場。清華ocr印刷體漢字識別軟體其後又推出了th-ocr 92高效能實用簡/繁體、多字型、多功能印刷漢字識別系統,使印刷體漢字識別技術又取得重大進展。到2023年推出的th-ocr 94高效能漢英混排印刷文字識別系統,則被專家鑑定為「是國內外首次推出的漢英混排印刷文字識別系統,總體上居國際領先水平」。上個世紀90年代中後期,清華大學電子工程系提出並進行了漢字識別綜合研究,使漢字識別技術在印刷體文字、聯機手寫漢字識別、離線手寫漢字識別和離線手寫數字符號識別等領域全面地取得了重要成果。具有代表性的成果是th-ocr 97綜合整合漢字識別系統,它可以完成多文種(漢、英、日)印刷文字、聯機手寫漢字、離線手寫漢字和手寫數字的識別輸入。

從中文ocr技術的發展來看,其研發與應用經歷了如下幾個階段:

1、印刷體單字型識別,支援國標一級漢字3755字、繁體5401字,簡繁體和字型由使用者指明,識別率在95%左右;

2、印刷體多字型識別,支援國標一級漢字3755字,繁體5401字,簡繁體由使用者指明,宋仿楷黑四體混合識別,識別率在95%左右,對質量較差的印刷文稿的識別率會明顯下降,印刷體**的識別系統開始出現;

3、多字型大字符集簡繁混排、中英文混排識別,支援國標二級漢字6763字、繁體5401字、香港常用字等1萬多字,識別字型擴充到常見的十多種字型,識別率在99%左右,對質量較差的印刷文稿的識別率有較強的適應性,離線手寫數字識別和印刷體**識別系統進入實用化階段;

4、各種應用系統開始推出,如名片識別系統、身份證銀行卡識別系統、車牌識別系統、銀行票據識別系統、增值稅發票識別認證系統等。

三、ocr的基本原理

簡單地說,ocr的基本原理就是通過掃瞄器將乙份文稿的影象輸入給計算機,然後由計算機取出每個文字的影象,並將其轉換成漢字的編碼。其具體工作過程是,掃瞄器將漢字文稿通過電荷耦合器件ccd將文稿的光訊號轉換為電訊號,經過模擬/數字轉換器轉化為數碼訊號傳輸給計算機。計算機接受的是文稿的數字影象,其影象上的漢字可能是印刷漢字,也可能是手寫漢字,然後對這些影象中的漢字進行識別。對於印刷體字元,首先採用光學的方式將文件資料轉換成原始黑白點陣的影象檔案,再通過識別軟體將影象中的文字轉換成文字格式,以便文字處理軟體的進一步加工。其中文字識別是ocr的重要技術。

四、市場成熟的ocr產品

目前市場上較為成熟的ocr產品有:證件識別sdk、車牌識別sdk、文件識別sdk、銀行卡識別sdk、**識別sdk、票據識別sdk、名片識別sdk、護照識別sdk、身份證識別sdk。目前,銀行、保險、金融、稅務、海關、公安、邊檢、物流、電信工商管理、圖書館、戶籍管理、審計等很多行業都已經應用了ocr技術。ocr技術讓大家減少了裝置配置,降低了人力成本,提高了工作效率。

OCR文字技術與行業應用

數字原生類 商品圖是最具有代表性的數字原生類文字圖。特點 1 最複雜多樣 各種字型 背景 排列 組合等 mtwi挑戰賽 最大的ocr競賽 2 最有價值 商品資訊載體 3 量最大 千億,每日不停更新。文件類 文件類ocr需求非常廣,涉及各種公務場景。特點 1 100 識別率 人的輸入準確率為98 探索...

雷達技術的發展應用

電子科技大學格拉斯哥學院2017劉子超 本人學生一枚,對雷達技術的發展應用提出一點總結和看法,如有認識錯誤歡迎指出。前言現代的雷達技術是在二戰時期出於巨大的戰爭壓力而研發成功的,至於支撐其的理論基礎 都卜勒效應和麥克斯韋的電磁場理論等 則可追溯到19世紀。它的研究最早是為了防止船舶相撞,後來被廣泛應...

虛擬實境技術如今的發展及應用

近年來,我國也出台不少政策支援國內虛擬實境的發展。前不久,工業和資訊化部電子資訊司副司長吳勝武曾表示,我國虛擬實境關鍵技術不斷突破,市場規模持續擴大。預計到2021年,我國虛擬實境市場規模將達到544.5億元。工信部將支援虛擬實境製造業創新中心籌備建設,促進產業鏈關鍵環節提公升,推動虛擬實境技術在製...