特徵選擇和特徵抽取

特徵提取演算法分為特徵選擇和特徵抽取兩大類。

特徵選擇：不改變原始的特徵資料，只是選擇一部分出來。其中常用的特徵選擇演算法有：

（1）df(document frequency) 文件頻率

df:統計特徵詞出現的文件數量，用來衡量某個特徵詞的重要性

（2）mi(mutual information) 互資訊法

互資訊法用於衡量特徵詞與文件類別直接的資訊量。

如果某個特徵詞的頻率很低，那麼互資訊得分就會很大，因此互資訊法傾向"低頻"的特徵詞。相對的詞頻很高的詞，得分就會變低，如果這詞攜帶了很高的資訊量，互資訊法就會變得低效。

（3）(information gain) 資訊增益法

通過某個特徵詞的缺失與存在的兩種情況下，語料中前後資訊的增加，衡量某個特徵詞的重要性。

（4）chi(chi-square) 卡方檢驗法

利用了統計學中的"假設檢驗"的基本思想：首先假設特徵詞與類別直接是不相關的

如果利用chi分布計算出的檢驗值偏離閾值越大，那麼更有信心否定原假設，接受原假設的備則假設：特徵詞與類別有著很高的關聯度。

（5）wllr(weighted log likelihood ration)加權對數似然

（6）wfo（weighted frequency and odds）加權頻率和可能性

特徵抽取：進行了特徵由高維到低維的對映，特徵實際上產生了一定的變化。常用的演算法為主成分分析（pca）

caffe Python特徵抽取

caffe大家一般用到的深度學習平台都是這個，關於caffe的訓練通常一般都可以通過一些命令來執行，但是在deploy階段，如果是做實際的工程，那麼c 介面用得會相對比較多。但是caffe是支援python和matlab介面的，所以用python來做一些相關的特徵的處理以及額外的任務比較方便這裡我...

Caffe Python特徵抽取

文字特徵抽取

例項文字特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.text import countvectorizer import jieba defcountvec 對...

特徵選擇和特徵抽取

caffe Python特徵抽取

Caffe Python特徵抽取

文字特徵抽取

相關推薦