通用印刷體文字識別華宇OCR之手寫識別

2021-10-13 23:36:12 字數 511 閱讀 8832

華宇ocr在通用印刷體文字識別上取得了成功，但隨著業務的不斷深入，客戶對於手寫識別的需求越來越大，其他廠商也相繼推出了手寫識別產品，我們在評估了當前技術以及資料基礎等條件後，在19年末立項了手寫識別研究課題。下圖是近期取得的識別效果展示：

圖1 alpha版識別效果

相比於通用印刷體文字識別，手寫字型的無規則、連筆、潦草、簡體字等特點都導致其難度遠超印刷體識別。另外，在資料方面，不能像印刷體那樣通過大量合成資料提高演算法精度，手寫的高質量標註資料較少也是一大挑戰。

我們一方面研究適合手寫識別的深度學習演算法，另一方面瘋狂的找資料標註、研究手寫資料合成和資料增強的方法。在標註資料較少的情況下，我們通過資料合成、資料增強等手段擴充了十倍資料，基於此我們訓練了乙個手寫識別模型，綜合情況下ar可達85%，在清晰的字型上ar可達92%。目前的手寫識別還屬於alpha版，後續我們還要優化演算法、新增語言模型。正式版本，敬請期待！

通用印刷體文字識別 華宇OCR之手寫識別

相關推薦

通用印刷體文字識別華宇OCR之手寫識別