文字分類概論

2021-09-16 20:37:36 字數 993 閱讀 5044

通過新增特定規則做分類任務,費時費力,覆蓋的範圍和準確率都非常有限。

維護停用詞表(包括高頻的代詞連詞介詞等),特徵提取過程中刪除停用表**現的詞等

1.詞袋模型(one-hot編碼)

缺點:高緯度、高稀疏、無法編碼上下文的關聯資訊,無法表達語義資訊。

2.向量空間模型

通過特徵選擇降低維度,特徵權重計算增加稠密性

白話就是說,我們需要一種評價指針對詞打分,選取分高的作為特徵詞,並給予其合理的權重值。

特徵選擇:文件頻率、互資訊、資訊增益、χ²統計量等

特徵權重計算:tf-idf等

3.基於語義的表示

lda主題模型

lsi/plsi概率潛在語義索引

傳統的分類器基本是統計分類方法,樸素貝葉斯,knn,svm,最大熵等。

word embedding(具體演算法:skip-gram,cbow,fasttext,elmo,gpt,bert)

通過cnn,rnn,tranformer等做特徵提取(特徵的表達),然後分類的問題

1.fasttext

2.textcnn

3.textrnn

4.textrnn+attention

5.textrcnn

6.han

7.swem

8.vdcnn

對於模型效果的比較,我們擷取部分實驗圖

資料描述:公司內部資料(只關注f1指數)

結果如下

新聞文字分類(11個分類,每個類2000個樣例,每行文字採用標題加內容,取前100個字)

實驗結果對比(知乎大牛王岳王院長)

鏈結位址

文字分類 libsvm

關於 libsvm 的介紹以及相關 網上很多,感興趣可以找找。這是libsvm 這裡主要是針對之前學習過的幾種特徵篩選演算法用 libsvm 進行比較。採用搜狗實驗室的資料,選擇商業類文字 1001 篇,娛樂類文字 1208 篇,測試集 29904 篇。分別採用文件頻次,卡方分布,互資訊,資訊增益來...

文字分類四

下面是使用knn演算法來做的。資料均是由前面的程式生成的。做完這個之後,就是將每一步整合起來。然後再盡可能的優化,使得程式效率更好。然後可以嘗試不同的特徵選擇演算法和分類演算法,當然最後要是能有自己的一些小小改進就好了。不過至少有了乙個還可以的結果了。include include include ...

文字分類知識

文字分類是在預定義的分類體系下,根據文字的特徵 內容和屬性 將給定文字與乙個或者多個類別相關聯的過程。最終目的是找到乙個有效的對映函式,將輸入的視覺化文字對映為預定義分類體系下的乙個或者多個類別。因此,文字分類有兩個關鍵問題 乙個是文字的表示,另乙個就是分類器的設計。輸入文件 預處理 文字表示 分類...