NLP賽事 Task1 賽題理解

賽題理解¶

賽題資料

賽題資料由以下幾個部分構成：訓練集20w條樣本，測試集a包括5w條樣本，測試集b包括5w條樣本。為了預防選手人工標註測試集的情況，我們將比賽資料的文字按照字元級別進行了匿名處理。

資料標籤

在資料集中標籤的對應的關係如下：

評測指標

評價標準為類別f1_score的均值，選手提交結果與實際測試集的類別進行對比，結果越大越好。

解題思路

賽題思路分析：賽題本質是乙個文字分類問題，需要根據每句的字元進行分類。但賽題給出的資料是匿名化的，不能直接使用中文分詞等操作，這個是賽題的難點。

因此本次賽題的難點是需要對匿名字元進行建模，進而完成文字分類的過程。由於文字資料是一種典型的非結構化資料，因此可能涉及到特徵提取和分類模型兩個部分。

思路1：tf-idf + 機器學習分類器

直接使用tf-idf對文字提取特徵，並使用分類器進行分類。在分類器的選擇上，可以使用svm、lr、或者xgboost。

思路2：fasttext

fasttext是入門款的詞向量，利用facebook提供的fasttext工具，可以快速構建出分類器。

思路3：wordvec + 深度學習分類器

wordvec是高階款的詞向量，並通過構建深度學習分類完成分類。深度學習分類的網路結構可以選擇textcnn、textrnn或者bilstm。

思路4：bert詞向量

bert是高配款的詞向量，具有強大的建模學習能力。

賽題名稱資料集賽題資料由以下幾個部分構成訓練集20w條樣本，測試集a包括5w條樣本，測試集b包括5w條樣本。為了預防選手人工標註測試集的情況，我們將比賽資料的文字按照字元級別進行了匿名處理。資料標籤處理後的賽題訓練資料如下在資料集中標籤的對應的關係如下評價標準為類別f1 score的均值...

內容主要來自 datawhale github 簡介新聞文字理解，賽題資料理解，解題思路賽題名稱零基礎入門nlp之新聞文字分類目標預處理，模型構建，模型訓練。對新聞文字分類字元識別賽題資料按照字元級別進行匿名處理的新聞文字資料，14個類。構成部分訓練集 20w樣本測試集a 5w樣...

賽題是cv入門級賽題，通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下評價指標如下主要考慮兩種思路傳統cv思路先將影象二值化處理，然後做傾斜校正，根據投影做字元切割，根據0 9的字元的特徵點與標準字元匹配來進行識別深度學習思路本題本質上是分類問題，...