看到的一些文字分類的一些問題（評論）

2. 你好，路過看到你的問題，我在某公司實習的時候，50w新聞語料分19類，長文(實際長短非常不均衡，textcnn**語料應該是句子)，然後textcnn random初始化，沒有用pretrain的vector，然後效果一般，fasttext當時輸入是文字加作者資訊 f1飄過0.9 ，不輸入作者資訊0.86-0.88 傳統ml最後搞到0.94.... 上線之後效果比線下更好點，因為人工評價的時候，某些比如放在兩個類別都可以的會認為分到哪個都是對的。其他幾個問題如果有答案求告知

3. 你好，想請教一下傳統機器學習是用什麼模型做的？用textcnn的話長短不均衡該怎麼處理比較好？我現在做的專案分類類別有上萬個，然後一篇文章還可以對應多個類別，

完全不知道該怎麼處理比較好~

回答、1、長文的話如果是那種比如軍事政治體育這種分類， tf-idf一般能有很好的結果你看幾篇文字分類的dl的**他們都會對比傳統的方法那些方法你可以試試 2、你的是multilabel classification還是一篇文章只有乙個label呢，如果是multilabel classification的話最近知乎看山杯的競賽，可以參考下 3、textcnn長短不均衡只能統計一下分布，比如90%文字都是<=100個詞你就按照100截斷。 5、用fasttext跑個結果當baseline把這玩意很快而且效果一般還是能看的。6 、dl的話建議你試試這篇：《 hierarchical attention networks for document classification

》當時我們試的這篇效果挺好的。

from：

看到的一些文字分類的一些問題（評論）

Excel的一些問題

編碼的一些問題

ftp的一些問題

看到的一些文字分類的一些問題（評論）

Excel的一些問題

編碼的一些問題

ftp的一些問題

相關推薦