Task1 賽題理解

2021-10-08 09:17:01 字數 588 閱讀 1413

鏈結

賽題資料由以下幾個部分構成:訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。

為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。

在資料集中標籤的對應的關係如下:

評價標準為類別f1_score的均值,選手提交結果與實際測試集的類別進行對比,結果越大越好。

使用pandas完成資料讀取操作,並對賽題資料進行分析

思路1:tf-idf + 機器學習分類器

直接使用tf-idf對文字提取特徵,並使用分類器進行分類。在分類器的選擇上,可以使用svm、lr、或者xgboost。

思路2:fasttext

fasttext是入門款的詞向量,利用facebook提供的fasttext工具,可以快速構建出分類器。

思路3:wordvec + 深度學習分類器

wordvec是高階款的詞向量,並通過構建深度學習分類完成分類。深度學習分類的網路結構可以選擇textcnn、textrnn或者bilstm。

思路4:bert詞向量

bert是高配款的詞向量,具有強大的建模學習能力。

Task1 賽題理解

賽題是cv入門級賽題,通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下 評價指標如下 主要考慮兩種思路 傳統cv思路 先將影象二值化處理,然後做傾斜校正,根據投影做字元切割,根據0 9的字元的特徵點與標準字元匹配來進行識別 深度學習思路 本題本質上是分類問題,...

Task1 賽題理解

1.賽題資料import pandas as pd import numpy as nptrain pd.read csv train.csv testa pd.read csv testa.csv print train data shape train.shape print testa dat...

task1 賽題理解

task1 賽題理解 本次組隊學習的任務是典型的貸款違約問題,即通過所給的關與貸款者的各項字段特徵去判斷該客戶是否是潛在的違約客戶,這類題在各類風控問題中常常出現,因為不同銀行或機構所掌握的客戶資訊不同,每個特徵也不同,所以如何利用字段特徵,成為了是否能拿高分的關鍵因素 先來看一下題目簡介 賽題以 ...