分類演算法 七) 短文本分類

2021-10-10 04:31:14 字數 420 閱讀 3175

深入做文字分類的同學都知道,短文本分類相對來說比較難。因為較短的文字包含的資訊較少,有時候模型很難學到關鍵特徵。    

參考 指出:

但是對於長文字直接用cnn就不行了,textcnn會比han模型泛化能力差很多。當然如果在textcnn前加一層lstm,這樣效果可以提公升很大。    

另外還有一點很重要的是,實際使用的模型也要看訓練資料, 根據訓練資料以及相關任務確定採用哪種模型比較合適, 雖然文字有長短之分,但是對於不同任務還是要考慮是否使用,對於一些簡單的任務,長文字分類可以直接上bert看效果,bert在長文字效果比短文本好很多,也是因為預訓練的時候長文字較多有關係,且因為bert的網路結構及資料規模,時期在長文字分類等自然語言處理任務中有很好的效果。 對於一些比較複雜的任務來說,可以考慮bert上拼接其他演算法。 短文本可以按前人經驗採用textcnn嘗試下效果。

短文本分類遇到的bug

1.安裝了包tgrocery,其中引用了classifier 和converter,但是報錯沒有converter的模組 原因 1.改包只能在linux 環境下跑。2.改包使用python 2 寫的。因此,from tgrocery import grocery 會報錯。修改 新增乙個點.之後不會報...

2020 12 13 NLP 中文短文本分類

nlp 中文短文本分類 wordcloud 製作詞云 import jieba import pandas as pd import numpy as np from scipy.misc import imread from wordcloud import wordcloud,imagecolo...

文字分類演算法之 貝葉斯文字分類演算法

文字分類過程 例如文件 good good study day day up 可以用乙個文字特徵向量來表示,x good,good,study,day,day up 在文字分類中,假設我們有乙個文件d x,類別 c又稱為標籤。我們把一堆打了標籤的文件集合 作為訓練樣本,x c 例如 對於這個只有一句...