文字分類概論

通過新增特定規則做分類任務，費時費力，覆蓋的範圍和準確率都非常有限。

維護停用詞表（包括高頻的代詞連詞介詞等），特徵提取過程中刪除停用表**現的詞等

1.詞袋模型（one-hot編碼）

缺點：高緯度、高稀疏、無法編碼上下文的關聯資訊，無法表達語義資訊。

2.向量空間模型

通過特徵選擇降低維度，特徵權重計算增加稠密性

白話就是說，我們需要一種評價指針對詞打分，選取分高的作為特徵詞，並給予其合理的權重值。

特徵選擇：文件頻率、互資訊、資訊增益、χ²統計量等

特徵權重計算：tf-idf等

3.基於語義的表示

lda主題模型

lsi/plsi概率潛在語義索引

傳統的分類器基本是統計分類方法，樸素貝葉斯，knn，svm，最大熵等。

word embedding(具體演算法：skip-gram,cbow,fasttext,elmo,gpt,bert)

通過cnn，rnn，tranformer等做特徵提取（特徵的表達），然後分類的問題

1.fasttext

2.textcnn

3.textrnn

4.textrnn+attention

5.textrcnn

6.han

7.swem

8.vdcnn

對於模型效果的比較，我們擷取部分實驗圖

資料描述：公司內部資料（只關注f1指數）

結果如下

新聞文字分類（11個分類，每個類2000個樣例，每行文字採用標題加內容，取前100個字）

實驗結果對比（知乎大牛王岳王院長）

鏈結位址

文字分類 libsvm

關於 libsvm 的介紹以及相關網上很多，感興趣可以找找。這是libsvm 這裡主要是針對之前學習過的幾種特徵篩選演算法用 libsvm 進行比較。採用搜狗實驗室的資料，選擇商業類文字 1001 篇，娛樂類文字 1208 篇，測試集 29904 篇。分別採用文件頻次，卡方分布，互資訊，資訊增益來...

文字分類四

下面是使用knn演算法來做的。資料均是由前面的程式生成的。做完這個之後，就是將每一步整合起來。然後再盡可能的優化，使得程式效率更好。然後可以嘗試不同的特徵選擇演算法和分類演算法，當然最後要是能有自己的一些小小改進就好了。不過至少有了乙個還可以的結果了。include include include ...

文字分類知識

文字分類是在預定義的分類體系下，根據文字的特徵內容和屬性將給定文字與乙個或者多個類別相關聯的過程。最終目的是找到乙個有效的對映函式，將輸入的視覺化文字對映為預定義分類體系下的乙個或者多個類別。因此，文字分類有兩個關鍵問題乙個是文字的表示，另乙個就是分類器的設計。輸入文件預處理文字表示分類...

文字分類概論

文字分類 libsvm

文字分類四

文字分類知識

相關推薦