halcon識別ocr漢字 我所認識的OCR技術

2021-10-13 17:20:00 字數 929 閱讀 9400

咱們先聊聊中文ocr的發展歷程:

國家863計畫資訊領域課題組織了清華大學、北京資訊工程學院、瀋陽自動化所三家單位聯合進行中文ocr軟體的開發工作。至2023年,清華大學率先推出了國內第一套中文ocr軟體--清華文通th-ocr1.0版,至此中文ocr正式從實驗室走向了市場。

清華ocr印刷體漢字識別軟體其後又推出了th-ocr 92高效能實用簡/繁體、多字型、多功能印刷漢字識別系統,使印刷體漢字識別技術又取得重大進展。

到2023年推出的th-ocr 94高效能漢英混排印刷文字識別系統,則被專家鑑定為「是國內外首次推出的漢英混排印刷文字識別系統,總體上居國際領先水平」。

上個世紀90年代中後期,清華大學電子工程系提出並進行了漢字識別綜合研究,使漢字識別技術在印刷體文字、聯機手寫漢字識別、離線手寫漢字識別和離線手寫數字符號識別等領域全面地取得了重要成果。具有代表性的成果是th-ocr 97綜合整合漢字識別系統,它可以完成多文種(漢、英、日)印刷文字、聯機手寫漢字、離線手寫漢字和手寫數字的識別輸入。

ocr識別技術的門檻其實很低,現在網上都出現開源的ocr識別資料庫來了。可真正涉及ocr領域的公司也就那麼幾家,屈指可數。這是為什麼呢?因為要做到識別率和識別速度達到理想要求,你需要作大量的機器深度學習的工作。這是一件龐大的工程。

現在,很多企業也對ocr領域虎視眈眈,躍躍欲試。有目前還算成功的,當然是竊取技術了(在這裡我就不提是誰了)。但真正的,你想要成為一家偉大的公司,是永遠需要把技術放在第一位的,你得有龐大的研發能力。像那種投機取巧,賺機會錢的公司,是不值得我們尊重的。

我相信,經過五年、十年、甚至是上百年。市場會做出篩選。真正留下來的,能為ocr識別行業作出貢獻的,只能是我們文通這樣的老企業,因為我們始終秉持技術至上的理念,在ocr領域更應如此。

我所認識的ELK Stack

聽說elk stack最近很火,於是我抱著試試看的態度去市場了解了一番,發現現在很多公司都在使用這個東西處理日誌,而且成為實時日誌處理領域的第一選擇,於是我就去官網認真的學習了一番。elk stack這個東西是 elasticsearch logstash kibana 三個開源軟體的組合,在實時資...

我所認識的HTML

html hypetext mark language 超文字標記語言。如果把乙個web應用比喻為人,那麼html就是人體的骨骼。對於html的學習,我覺得要有以下幾個方面的認識和理解 用途 背景 規範制定和維護組織 語言本身 語法,api 其他一些常見問題 相關鏈結 起初,用來語義化描述科學文件,...

我所認識的父親們

一次去探望來京打工的老鄉,在他租住的僅有三四十平方公尺的簡陋寓所裡正在拉家常時,一位眉目慈善的中年男人熱情地跟我們打著招呼進來了,老鄉介紹說這是住在他隔壁的房客。隨即男人便坐下來和我們聊了起來。在閒聊中得知男人今年已經五十歲了,是南方人,也是在北京打工。我好奇地問他已是知天命的年紀了,為何還要在離家...