零基礎入門NLP賽事新聞文字分類記錄 task2

資料處理

train集合240m+,test集合60m+，並不大直接用pandas讀入即可。可以看到資料格式如下，label列是新聞的類別，text列是新聞的字元。二者均為數值型。

可以看成，還需要處理一下分隔符。應該改為：

df_train = pd.read_csv("./data/train_set.csv",sep='\t')

那麼接下來，我們應該對資料的分布有所分析。比如文字長度分布，資料類別分布，字元分布情況。

文字長度分布（即句子長度）如下，平均乙個句子907個字元，最長57921字，大部分長度在2000以內。

新聞類別分布：可見存在類別分布不均的問題，科技類新聞樣本最多，星座類最少。

將所有句子進行拼接然後劃分字元，統計每個字元的個數。可以檢視出總共6869個字，編號3750的字出現的次數最多，編號3133的字出現最少。

from collections import counter
all_l = ' '.join(list(df_train['text']))
word_c = counter(all_l.split(" "))
word_c =sorted(word_c.items(),key=lambda d:d[1], reverse =true)

零基礎入門NLP 新聞文字分類

1 transformer transformer是一種新的編碼器解碼器架構，它僅使用注意力機制而不是rnn來編碼每個位置，並關聯有關其自身的輸入和輸出的兩個遠端單詞，然後可以並行化處理，因而加快訓練。2 attention 模仿人類視覺注意力機制，學習出乙個對影象特徵的權重分布，再把這個權重分布...

新聞文字資料集零基礎入門NLP 新聞文字分類

本文是對阿里雲新人競賽中的零基礎入門nlp 新聞文字分類解體過程進行的記錄，目前僅使用了textcnn模型進行後續還會考慮使用lstm進行對比。賽題資料由以下幾個部分構成訓練集20w條樣本，測試集a包括5w條樣本，測試集b包括5w條樣本。為了預防選手人工標註測試集的情況，我們將比賽資料的文字...

零基礎入門NLP 新聞文字分類方案整理

零基礎入門nlp 新聞文字分模擬賽方案分享 nano rank1 主要思路零基礎入門nlp 新聞文字分模擬賽 top2參賽經驗原始碼分享主要思路嘗試了nlp文字分類任務中常用的思路，並且給出了實驗中的一些總結，給我比較大的啟發的地方是 rnn網路，最大的亮點就是seq len使用了2000個...

零基礎入門NLP賽事 新聞文字分類記錄 task2

零基礎入門NLP 新聞文字分類

新聞文字資料集 零基礎入門NLP 新聞文字分類

零基礎入門NLP 新聞文字分類 方案整理

相關推薦

零基礎入門NLP賽事新聞文字分類記錄 task2

新聞文字資料集零基礎入門NLP 新聞文字分類

零基礎入門NLP 新聞文字分類方案整理