技術積累 常用的文字分類的特徵選擇演算法

2022-08-23 23:48:14 字數 582 閱讀 1207

常採用特徵選擇方法。常見的六種特徵選擇方法:

1)df(document frequency) 文件頻率

df:統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性

2)mi(mutual information) 互資訊法

互資訊法用於衡量特徵詞與文件類別直接的資訊量。

如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向"低頻"的特徵詞。

相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的資訊量,互資訊法就會變得低效。

3)(information gain) 資訊增益法

通過某個特徵詞的缺失與存在的兩種情況下,語料中前後資訊的增加,衡量某個特徵詞的重要性。

4)chi(chi-square) 卡方檢驗法

如果利用chi分布計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有著很高的關聯度。

5)wllr(weighted log likelihood ration)加權對數似然

6)wfo(weighted frequency and odds)加權頻率和可能性

mark:具體做法有時間繼續整理

文字分類特徵的選取

文字處理的第一步一般是要做分詞 也有部分文字處理演算法不需要做分詞,這裡不做討論 這裡介紹兩個分詞工具,其中最常用的是jieba,兩者有很多相似的地方。在分詞後將中文句子轉換問多個詞語的序列,這一步需要做特徵提取,將文字轉換為模型可以使用的資料 詞向量的維度 與隱含層節點數一致 一般情況下要遠遠小於...

高效的文字分類

文字分類任務是自然語言處理中重要的任務之一,近來,神經網路的使用變得更為普遍,神經網路在文字分類任務中表現更好,但是在訓練和測試時間比較慢,限制了在大型語料庫中的使用。與此同時,線性分類器在文字分類器中被認為是一種很好的baseline,儘管他們很簡單,但當正確的特徵被使用時,經常能夠得到很好的表現...

實現文字分類的過程

資料集的預處理 去停用詞,過濾標點,空格分隔並去掉標點,大小寫統一等 詳細請參考 將原始資料轉換為特徵向量,為了從資料集中選出重要的特徵,有以下幾種方式 特徵工程詳情請見 詞嵌入作為特徵 基於文字 nlp的特徵 主題模型作為特徵 樸素貝葉斯分類器 線性分類器 支援向量機 淺層神經網路 深層神經網路 ...