零基礎入門NLP 新聞文字分類 方案整理

2021-10-10 17:46:35 字數 594 閱讀 3131

零基礎入門nlp - 新聞文字分模擬賽方案分享 nano- rank1

**:主要思路:

零基礎入門nlp-新聞文字分模擬賽 top2參賽經驗、原始碼分享

**:主要思路:

嘗試了nlp文字分類任務中常用的思路,並且給出了實驗中的一些總結,給我比較大的啟發的地方是:rnn網路,最大的亮點就是seq_len使用了2000個字元。令人震驚的原因有2點:一是長文字分類不通過han網路,而是單純增加擷取字元的長度是有用的;我們被bert等預訓練模型限制了思維方式,對rnn來說,將seq_len增加到2000甚至更長是比較輕鬆的,但這對預訓練模型來說是不可想象的。因為預訓練模型的引數太多了,占用了太多記憶體。相比bert模型的資源消耗,這種方法還是值的嘗試的。

nlp新聞文字分類-rank3+經驗分享

主要模型:

rank6 nlp新聞文字分類-github**+經驗分享@還是叫我小狐狸吧

**:所用模型及總體效果:

nlp新聞文字分類-rank5+經驗分享@goldgaruda

零基礎入門NLP 新聞文字分類

1 transformer transformer是一種新的編碼器 解碼器架構,它僅使用注意力機制而不是rnn來編碼每個位置,並關聯有關其自身的輸入和輸出的兩個遠端單詞,然後可以並行化處理,因而加快訓練。2 attention 模仿人類視覺注意力機制,學習出乙個對影象特徵的權重分布,再把這個權重分布...

零基礎入門NLP賽事 新聞文字分類記錄 task2

資料處理 train集合240m test集合60m 並不大直接用pandas讀入即可。可以看到資料格式如下,label列是新聞的類別,text列是新聞的字元。二者均為數值型。可以看成,還需要處理一下分隔符。應該改為 df train pd.read csv data train set.csv s...

新聞文字資料集 零基礎入門NLP 新聞文字分類

本文是對阿里雲新人競賽中的 零基礎入門nlp 新聞文字分類 解體過程進行的記錄,目前僅使用了textcnn模型進行 後續還會考慮使用lstm進行對比。賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字...