街景字元編碼識別1

2021-10-06 08:40:03 字數 682 閱讀 3753

該資料來自真實場景的門牌號。訓練集資料報括**3w**張**,驗證集資料報括**1w**張**,每張**包括顏色影象和對應的編碼類別和具體位置;為了保證比賽的公平性,測試集a包括**4w**張**,測試集b包括**4w**張**。

相關資料

所有的資料使用(訓練集和驗證集)json格式進行標註,如果乙個檔案中包含多個字元,則使用列表將字段進行組合。可能某些中包含多個字元,因此在使用json格式進行標註的時候,會有多個字元邊框的資訊。

可以將賽題抽象為乙個定長字元識別問題,在賽題資料集中大部分影象中字元個數為2-4個,最多的字元 個數為6個。因此可以對於所有的影象都抽象為6個字元的識別問題,字元23填充為23***x,字元231填充為231***。經過填充之後,原始的賽題可以簡化了6個字元的分類問題。在每個字元的分類中會進行11個類別的分類,假如分類為填充字元,則表明該字元為空。

在字元識別研究中,有特定的方法來解決此種不定長的字元識別問題,比較典型的有crnn字元識別模型。在本次賽題中給定的影象資料都比較規整,可以視為乙個單詞或者乙個句子。

此種思路需要參賽選手構建字元檢測模型,對測試集中的字元進行識別。選手可以參考物體檢測模型ssd或者yolo來完成。

天池 Datawhale 街景字元編碼識別

天池 datawhale 街景字元編碼識別 task1 賽題理解 需要選手 真實場景下的字元識別,這是乙個典型的字元識別問題 分類問題 資料集 自google街景影象中的門牌號資料集 the street view house numbers dataset,svhn 並根據一定方式取樣得到比賽資料...

街景字元編碼識別賽題理解

賽題的資料為街景字元,類似於mnist資料集,但是更加困難,每張解析度都很低,中的字元有大有小,存在尺度不一致的問題 按照賽題的要求只要識別是每張包含幾個字元,每個字元是什麼就可以了,這樣可以簡單將其定義為乙個影象分類問題,但是每個的字元個數不確定,而且位置不確定,因為每個字元的類別僅僅與相應的區域...

DataWhale 街景字元編碼識別比賽記錄

作為正式參加的第乙個cv比賽,打算通過這個來入個門。因為前兩天因為私事沒來得及跑這個比賽。看小組的討論,打算先試試已有成功方案,跑通模型,先有個baseline然後逐步優化。下面的內容都是來自比賽的官網。賽題 自google街景影象中的門牌號資料集 the street view house num...