《街景字元編碼識別CV組隊學習》第一次打卡

2021-10-06 08:42:07 字數 1156 閱讀 8448

一、賽題理解

1.資料集

訓練集資料報括3w張**

驗證集資料報括1w張**

每張**包括顏色影象和對應的編碼類別和具體位置

2.資料標籤

標籤檔案是.json格式,(top,height,left,width,label)

同一張**可能有多個數字,(**結果需要考慮按x座標公升序排列)

4.**實踐

#json格式資料讀取

import json

train_json = json.load(open(』…/input/train.json』))

#資料標註處理

def parse_json(d):

arr = np.array([

d[『top』], d[『height』], d[『left』], d[『width』], d[『label』]

])arr = arr.astype(int)

return arr

img = cv2.imread(』…/input/train/000000.png』)

arr = parse_json(train_json[『000000.png』])

plt.figure(figsize=(10, 10))

plt.subplot(1, arr.shape[1]+1, 1)

plt.imshow(img)

plt.xticks(); plt.yticks()

for idx in range(arr.shape[1]):

plt.subplot(1, arr.shape[1]+1, idx+2)

plt.imshow(img[arr[0, idx]:arr[0, idx]+arr[1, idx],arr[2, idx]:arr[2, idx]+arr[3, idx]])

plt.title(arr[4, idx])

plt.xticks(); plt.yticks()

二、初步分析:

1.賽題雖然只要求**字元,不要求具體位置,是分類問題,但可以嘗試用目標檢測解決

2.檢視資料集發現:很多本身畫素較低,有些上的字元非常模糊(『012677.png』標註異常,字元高度大於高度)

3.字元顏色、排列變化多樣,考慮資料增強有可能提高效果

4.用yolo跑了一遍,效果不是很好

《街景字元編碼識別CV組隊學習》第2次打卡

一 資料讀取與資料擴增 影象讀取 pil和opencv img cv2.imread cat.jpg 2.資料擴增 資料擴增是本次比賽的關鍵,在簡單擴增的情況下,訓練非常容易過擬合。嘗試增加更多的合適的擴增方法 3.pytorch 讀取資料 dataset是對資料集的封裝,提供索引讀取資料的方式 c...

《街景字元編碼識別CV組隊學習》第5次打卡

一 學習內容 模型整合 1.整合學習方法 常見的方法包括stacking bagging boosting三類,與驗證集的劃分有關。比如10折交叉驗證。2.深度學習中的整合方法 a.dropout 一般放在relu之後,用於緩解過擬合,目前已不常用 b.測試集資料擴增 tta test time a...

零基礎入門CV賽事 街景字元編碼識別

pytorch讀取資料 使用定長字元識別思路構建模型 學習python和pytorch中影象讀取 學會擴增方法和pytorch讀取賽題資料 pillow 匯入 from pil import image 讀取 im image.open jpg opencv 匯入 import cv2 讀取 img...