分類演算法七）短文本分類

深入做文字分類的同學都知道，短文本分類相對來說比較難。因為較短的文字包含的資訊較少，有時候模型很難學到關鍵特徵。

參考指出：

但是對於長文字直接用cnn就不行了，textcnn會比han模型泛化能力差很多。當然如果在textcnn前加一層lstm，這樣效果可以提公升很大。

另外還有一點很重要的是，實際使用的模型也要看訓練資料，根據訓練資料以及相關任務確定採用哪種模型比較合適，雖然文字有長短之分，但是對於不同任務還是要考慮是否使用，對於一些簡單的任務，長文字分類可以直接上bert看效果，bert在長文字效果比短文本好很多，也是因為預訓練的時候長文字較多有關係，且因為bert的網路結構及資料規模，時期在長文字分類等自然語言處理任務中有很好的效果。對於一些比較複雜的任務來說，可以考慮bert上拼接其他演算法。短文本可以按前人經驗採用textcnn嘗試下效果。

分類演算法七）短文本分類

短文本分類遇到的bug

2020 12 13 NLP 中文短文本分類

文字分類演算法之貝葉斯文字分類演算法

分類演算法 七） 短文本分類

短文本分類遇到的bug

2020 12 13 NLP 中文短文本分類

文字分類演算法之 貝葉斯文字分類演算法

相關推薦

分類演算法七）短文本分類

文字分類演算法之貝葉斯文字分類演算法