看到的一些文字分類的一些問題(評論)

2021-08-08 19:49:24 字數 821 閱讀 3789

2. 你好,路過看到你的問題,我在某公司實習的時候,50w新聞語料分19類,長文(實際長短非常不均衡,textcnn**語料應該是句子),然後textcnn random初始化,沒有用pretrain的vector,然後效果一般,fasttext當時輸入是文字加作者資訊 f1飄過0.9 ,不輸入作者資訊0.86-0.88 傳統ml最後搞到0.94.... 上線之後效果比線下更好點,因為人工評價的時候,某些比如放在兩個類別都可以的會認為分到哪個都是對的。其他幾個問題如果有答案求告知

3. 你好,想請教一下傳統機器學習是用什麼模型做的?用textcnn的話長短不均衡該怎麼處理比較好?我現在做的專案分類類別有上萬個,然後一篇文章還可以對應多個類別,

完全不知道該怎麼處理比較好~

回答、1、長文的話 如果是那種比如軍事政治體育這種分類, tf-idf一般能有很好的結果 你看幾篇文字分類的dl的**他們都會對比傳統的方法 那些方法你可以試試 2、你的是multilabel classification還是一篇文章只有乙個label呢,如果是multilabel classification的話 最近知乎看山杯的競賽,可以參考下 3、textcnn長短不均衡 只能統計一下分布,比如90%文字都是<=100個詞 你就按照100截斷。 5、用fasttext跑個結果當baseline把 這玩意很快而且效果一般還是能看的。6 、dl的話 建議你試試這篇:《 hierarchical attention networks for document classification

》 當時我們試的這篇效果挺好的。

from:

Excel的一些問題

1,excel列印紙張設定16k的問題 excel並沒有象word那樣在頁面設定中提供16開紙型的選項,如果手工重調,又會非常麻煩。解決這個問題就是為excel手工新增16開紙支援,但這個任務需要在 控制面板 的 印表機和傳真 中完成。在印表機裡面新增16開紙型 選擇乙個印表機後,從 檔案 選單中選...

編碼的一些問題

utf 8 是1byte 4byte的變換,漢字utf 8儲存的,乙個漢字佔3byte gbk 漢字gbk儲存的,乙個漢字佔2byte utf 16be 漢字 字母都是2byte utf8和utf16都是uincode 中國abc 分別對應的編碼,按順序gbk,utf 8,utf 16be 1101...

ftp的一些問題

為了傳輸檔案,一般用ftp。配置了好幾次ftp,還是碰上問題,所以這裡記錄下。linux下,一般ftp是用的vsftp,啟動是 service vsftpd start stop restart 今天,伺服器啟動ftp之後,客戶端鏈結的時候,碰上錯誤如下 cannot locate user ent...