技術積累常用的文字分類的特徵選擇演算法

常採用特徵選擇方法。常見的六種特徵選擇方法：

1）df(document frequency) 文件頻率

df:統計特徵詞出現的文件數量，用來衡量某個特徵詞的重要性

2）mi(mutual information) 互資訊法

互資訊法用於衡量特徵詞與文件類別直接的資訊量。

如果某個特徵詞的頻率很低，那麼互資訊得分就會很大，因此互資訊法傾向"低頻"的特徵詞。

相對的詞頻很高的詞，得分就會變低，如果這詞攜帶了很高的資訊量，互資訊法就會變得低效。

3）(information gain) 資訊增益法

通過某個特徵詞的缺失與存在的兩種情況下，語料中前後資訊的增加，衡量某個特徵詞的重要性。

4）chi(chi-square) 卡方檢驗法

如果利用chi分布計算出的檢驗值偏離閾值越大，那麼更有信心否定原假設，接受原假設的備則假設：特徵詞與類別有著很高的關聯度。

5）wllr(weighted log likelihood ration)加權對數似然

6）wfo（weighted frequency and odds）加權頻率和可能性

mark:具體做法有時間繼續整理

文字分類特徵的選取

文字處理的第一步一般是要做分詞也有部分文字處理演算法不需要做分詞，這裡不做討論這裡介紹兩個分詞工具，其中最常用的是jieba，兩者有很多相似的地方。在分詞後將中文句子轉換問多個詞語的序列，這一步需要做特徵提取，將文字轉換為模型可以使用的資料詞向量的維度與隱含層節點數一致一般情況下要遠遠小於...

高效的文字分類

文字分類任務是自然語言處理中重要的任務之一，近來，神經網路的使用變得更為普遍，神經網路在文字分類任務中表現更好，但是在訓練和測試時間比較慢，限制了在大型語料庫中的使用。與此同時，線性分類器在文字分類器中被認為是一種很好的baseline，儘管他們很簡單，但當正確的特徵被使用時，經常能夠得到很好的表現...

實現文字分類的過程

資料集的預處理去停用詞，過濾標點，空格分隔並去掉標點，大小寫統一等詳細請參考將原始資料轉換為特徵向量，為了從資料集中選出重要的特徵，有以下幾種方式特徵工程詳情請見詞嵌入作為特徵基於文字 nlp的特徵主題模型作為特徵樸素貝葉斯分類器線性分類器支援向量機淺層神經網路深層神經網路 ...

技術積累 常用的文字分類的特徵選擇演算法

文字分類特徵的選取

高效的文字分類

實現文字分類的過程

相關推薦

技術積累常用的文字分類的特徵選擇演算法