新聞文字資料集零基礎入門NLP 新聞文字分類

本文是對阿里雲新人競賽中的「零基礎入門nlp - 新聞文字分類」解體過程進行的記錄，目前僅使用了textcnn模型進行**，後續還會考慮使用lstm進行對比。

賽題資料由以下幾個部分構成：訓練集20w條樣本，測試集a包括5w條樣本，測試集b包括5w條樣本。為了預防選手人工標註測試集的情況，我們將比賽資料的文字按照字元級別進行了匿名處理。

官方給出了多種模型的解題方法，包括fasttext、textcnn、tf-idf、textrnn等。我按照官方教程跑通tf-idf後發現得分只有0.87左右，嘗試更改引數後提公升不大，故考慮改用textcnn進行**。

目前使用的網路結構如下：

其中使用三種不同尺寸的fiter對文字資料進行卷積。

由於原始資料長度分布中位值大概在2000字元左右，作為初次試算，選擇構建vocabulary的的最大字長取為1000字元。

第一次選擇1w資料量進行訓練和驗證，其中訓練集80%，結果如下，可見在40次迭代後訓練集精度達到1左右，已經很難再繼續下降了。此時考慮增加資料量至10w，並將學習率設定為隨迭代梯度下降。目前訓練到50epoch，使用官方提供的測試資料，打分為0.9328，排名大概60+。

精度收斂曲線

損失收斂曲線

新聞文字資料集 零基礎入門NLP 新聞文字分類