天池實戰 街景字元編碼識別 task1賽題理解

2021-10-06 08:40:03 字數 1318 閱讀 5106

寫在前面的話

在寫這篇文章的時候,我其實已經把整個專案的流程都過完了,包括pytorch對於模型的訓練等等,所以這篇題目為賽題理解但實際也會說到後面的內容,不光是題目所說的賽題理解這麼簡單

總之,請你按整個專案的流程去走,去了解整個專案的背景、資料和目的,以及要求的環境等等,然後再針對目標去一步步的完善**

按照建模流程,整個過程可以分為:賽題理解,資料預處理,建立模型,模型優化,模型整合五個部分

ok,準備開始

賽題理解

此次的賽題是針對計算機視覺的乙個入門練習,對於不懂計算機視覺的小白(比如我)難度不小,但是因為建模的流程差別不大,所以整個過程是既熟悉又陌生

另外,本次比賽是通過pytorch下實現的,所以可能也需要去稍微補一補pytorch的內容,比如pytorch下建模的流程,相應的神經網路相關的方法概念等等

賽題目標:

通過對訓練集中的訓練,使得模型能夠盡可能多的識別測試集中的

所以天池的評測指標是: sco

re=編

碼識別正

確的數量

測試集圖

片數

量score=\frac

score=

測試集圖

片數量編

碼識別正

確的數量

​賽題資料:

本次賽題提供了訓練集、驗證集和測試集,其中訓練集資料報括3w張,驗證集資料報括1w張,測試集包括4w張片。

field

description

top左上角座標x

height

字元高度

left

左上角最表y

width

字元寬度

label

字元編碼

針對乙個具體的影象,通過它的位置資訊確定字元所在的區域並擷取出來乙個更小的影象。具體的位置引數在影象中是這樣的:

工具與平台

針對影象的載入、處理等需要安裝影象處理框架,例如pillow、opencv等實現影象的裁剪、旋轉、變換等預處理

通過pytorch框架構建cnn模型,所以需要預先安裝pytorch

另外涉及pytorch的相關使用,還需要了解pytorch的相關操作,例如張量的相關操作,選擇gpu或者cpu訓練模型等等

# 安裝opencv

pip install opencv-python

# 安裝pytorch

pip install torch==1.5.0+cu101 torchvision==0.6.0+cu101 -f

具體的pytorch 的安裝可以直接去官網:pytorch安裝

天池 Datawhale 街景字元編碼識別

天池 datawhale 街景字元編碼識別 task1 賽題理解 需要選手 真實場景下的字元識別,這是乙個典型的字元識別問題 分類問題 資料集 自google街景影象中的門牌號資料集 the street view house numbers dataset,svhn 並根據一定方式取樣得到比賽資料...

天池 街景字元編碼識別 模型整合

結果後處理 在機器學習中的整合學習可以在一定程度上提高 精度,常見的整合學習方法有stacking bagging和boosting,同時這些整合學習方法與具體驗證集劃分聯絡緊密。由於深度學習模型一般需要較長的訓練週期,如果硬體裝置不允許建議選取留出法,如果需要追求精度可以使用交叉驗證的方法。那麼在...

天池 街景字元編碼識別 賽題理解

評測指標 結果提交 賽題思路分析 資料集介紹 賽題資料 自google街景影象中的門牌號資料集 the street view house numbers dataset,svhn 並根據一定方式取樣得到比賽資料集。訓練集資料報括3w張 驗證集資料報括1w張 每張 包括顏色影象和對應的編碼類別和具體...