天池 新聞文字分類 NLP實踐Note 01

2021-10-08 09:21:10 字數 1094 閱讀 7960

天池-新聞文字分類:

學習目標

賽題資料由以下幾個部分構成:訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理

處理後的賽題訓練資料如下:

在資料集中標籤的對應的關係如下:

評價標準為類別 f1_score 的均值,選手提交結果與實際測試集的類別進行對比,結果越大越好。

(f1分數(f1-score)是分類問題的乙個衡量指標。一些多分類問題的機器學習競賽,常常將f1-score作為最終測評的方法。它是精確率和召回率的調和平均數,最大為1,最小為0。)

f (z

)=2∗

prec

isio

n∗re

call

prec

isio

n+re

call

f(z) =2* \frac

f(z)=2

∗pre

cisi

on+r

ecal

lpre

cisi

on∗r

ecal

l​賽題思路分析:賽題本質是乙個文字分類問題,需要根據每句的字元進行分類。但賽題給出的資料是匿名化的,不能直接使用中文分詞等操作,這個是賽題的難點。

思路1:tf-idf + 機器學習分類器

直接使用tf-idf對文字提取特徵,並使用分類器進行分類。在分類器的選擇上,可以使用svm、lr、或者xgboost。

思路2:fasttext

fasttext是入門款的詞向量,利用facebook提供的fasttext工具,可以快速構建出分類器。

思路3:wordvec + 深度學習分類器

wordvec是高階款的詞向量,並通過構建深度學習分類完成分類。深度學習分類的網路結構可以選擇textcnn、textrnn或者bilstm。

思路4:bert詞向量

bert是高配款的詞向量,具有強大的建模學習能力。

天池 新聞文字分類 NLP實踐Note 03

在本章我們將開始使用機器學習模型來解決文字分類。機器學習發展比較廣,且包括多個分支,本章側重使用傳統機器學習,從下一章開始是基於深度學習的文字分類。機器學習是對能通過經驗自動改進的計算機演算法的研究。機器學習通過歷史資料訓練出模型對應於人類對經驗進行歸納的過程,機器學習利用模型對新資料進行 對應於人...

NLP入門 新聞文字分類Task5

textcnn textrnn 上乙個task4利用了fasttext,但不是最優的思路方法,因此本章將繼續學習基於深度學習的文字分類。基於詞的上下文環境進行 對於每一條輸入文字,選取一定大小的視窗的上下文和乙個中心詞,並基於這個中心詞去 視窗內其他詞出現的概率。通過單詞和上下文彼此 基礎 yoon...

零基礎入門NLP 新聞文字分類

1 transformer transformer是一種新的編碼器 解碼器架構,它僅使用注意力機制而不是rnn來編碼每個位置,並關聯有關其自身的輸入和輸出的兩個遠端單詞,然後可以並行化處理,因而加快訓練。2 attention 模仿人類視覺注意力機制,學習出乙個對影象特徵的權重分布,再把這個權重分布...