通用印刷體文字識別 華宇OCR之手寫識別

2021-10-13 23:36:12 字數 511 閱讀 8832

華宇ocr在通用印刷體文字識別上取得了成功,但隨著業務的不斷深入,客戶對於手寫識別的需求越來越大,其他廠商也相繼推出了手寫識別產品,我們在評估了當前技術以及資料基礎等條件後,在19年末立項了手寫識別研究課題。下圖是近期取得的識別效果展示:

圖1 alpha版識別效果

相比於通用印刷體文字識別,手寫字型的無規則、連筆、潦草、簡體字等特點都導致其難度遠超印刷體識別。另外,在資料方面,不能像印刷體那樣通過大量合成資料提高演算法精度,手寫的高質量標註資料較少也是一大挑戰。

我們一方面研究適合手寫識別的深度學習演算法,另一方面瘋狂的找資料標註、研究手寫資料合成和資料增強的方法。在標註資料較少的情況下,我們通過資料合成、資料增強等手段擴充了十倍資料,基於此我們訓練了乙個手寫識別模型,綜合情況下ar可達85%,在清晰的字型上ar可達92%。目前的手寫識別還屬於alpha版,後續我們還要優化演算法、新增語言模型。正式版本,敬請期待!