天池 Datawhale 街景字元編碼識別

2021-10-06 07:52:26 字數 1023 閱讀 9624

天池&datawhale- 街景字元編碼識別

task1 賽題理解

需要選手**真實場景下的字元識別,這是乙個典型的字元識別問題**(分類問題)**

資料集**自google街景影象中的門牌號資料集(the street view house numbers dataset, svhn),並根據一定方式取樣得到比賽資料集。

訓練集資料報括3w張**,驗證集資料報括1w張**,每張**包括彩色影象、對應的編碼類別和具體位置。

訓練集資料夾(3w張,png格式),驗證集資料夾(1w),測試集(4w張,png格式)

訓練集,驗證集標註檔案每一字段說明

field

description

top左上角座標x

height

字元高度

left

左上角座標x

width

字元寬度

label

字元編碼

準確率score= 編碼識

別正確的

數量測試

圖片數量

\frac

測試**數量

編碼識別

正確的數

量​baseline提供了三種解題思路

1.將不定長字元識別轉化為定長字元識別

根據對資料集的觀察,中最多的字元個數為6個,所以將所有影象都抽象為6個字元的識別問題,中不滿6個的部分填充字元x,問題轉化為分別對6個字元進行分類

疑問:如何將中的含有字元的區域整塊提取,同時怎麼填充x,不是很理解

2.不定長字元識別

有特定方法解決不定長字元識別,比如crnn,將影象資料視為乙個單詞或者乙個句子。

3.先檢測數字再識別

字元檢測模型檢測字元,把字元框出來

再進行多分類(這也恰是我想到的方法,可能也是大多數的人想到的方法?)

可以考慮物體檢測模型ssd或者yolo

目前為止還是深度學習上的小白,只了解了cnn,同時還沒有任何**上的實踐。接下來需要學習pytorch框架的使用,更多的深度神經網路模型(crnn,yolo)

DataWhale 街景字元編碼識別比賽記錄

作為正式參加的第乙個cv比賽,打算通過這個來入個門。因為前兩天因為私事沒來得及跑這個比賽。看小組的討論,打算先試試已有成功方案,跑通模型,先有個baseline然後逐步優化。下面的內容都是來自比賽的官網。賽題 自google街景影象中的門牌號資料集 the street view house num...

天池 街景字元編碼識別 模型整合

結果後處理 在機器學習中的整合學習可以在一定程度上提高 精度,常見的整合學習方法有stacking bagging和boosting,同時這些整合學習方法與具體驗證集劃分聯絡緊密。由於深度學習模型一般需要較長的訓練週期,如果硬體裝置不允許建議選取留出法,如果需要追求精度可以使用交叉驗證的方法。那麼在...

天池 街景字元編碼識別 賽題理解

評測指標 結果提交 賽題思路分析 資料集介紹 賽題資料 自google街景影象中的門牌號資料集 the street view house numbers dataset,svhn 並根據一定方式取樣得到比賽資料集。訓練集資料報括3w張 驗證集資料報括1w張 每張 包括顏色影象和對應的編碼類別和具體...