nlp入門賽task1 賽題理解

2021-10-08 09:08:44 字數 348 閱讀 9930

賽題名稱:

資料集:

賽題資料由以下幾個部分構成:訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。

資料標籤

處理後的賽題訓練資料如下:

在資料集中標籤的對應的關係如下:

評價標準為類別f1_score的均值,選手提交結果與實際測試集的類別進行對比,結果越大越好。

f1_score

賽題思路分析:賽題本質是乙個文字分類問題,需要根據每句的字元進行分類。但賽題給出的資料是匿名化的,不能直接使用中文分詞等操作,這個是賽題的難點。

NLP賽事 Task1 賽題理解

賽題理解 賽題資料 賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。資料標籤 在資料集中標籤的對應的關係如下 評測指標 評價標準為類別f1 score的均值,選手提交結果...

NLP學習 Task 1 賽題理解筆記

內容主要來自 datawhale github 簡介 新聞文字理解,賽題資料理解,解題思路 賽題名稱 零基礎入門nlp之新聞文字分類 目標 預處理,模型構建,模型訓練。對新聞文字分類 字元識別 賽題資料 按照字元級別進行匿名處理的新聞文字資料,14個類。構成部分 訓練集 20w樣本 測試集a 5w樣...

Task1 賽題理解

賽題是cv入門級賽題,通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下 評價指標如下 主要考慮兩種思路 傳統cv思路 先將影象二值化處理,然後做傾斜校正,根據投影做字元切割,根據0 9的字元的特徵點與標準字元匹配來進行識別 深度學習思路 本題本質上是分類問題,...