特徵選擇和特徵抽取

2021-09-27 03:13:54 字數 892 閱讀 7836

特徵提取演算法分為特徵選擇特徵抽取兩大類。

特徵選擇:不改變原始的特徵資料,只是選擇一部分出來。其中常用的特徵選擇演算法有:

(1)df(document frequency) 文件頻率

df:統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性

(2)mi(mutual information) 互資訊法

互資訊法用於衡量特徵詞與文件類別直接的資訊量。

如果某個特徵詞的頻率很低,那麼互資訊得分就會很大,因此互資訊法傾向"低頻"的特徵詞。相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的資訊量,互資訊法就會變得低效。

(3)(information gain) 資訊增益法

通過某個特徵詞的缺失與存在的兩種情況下,語料中前後資訊的增加,衡量某個特徵詞的重要性。

(4)chi(chi-square) 卡方檢驗法

利用了統計學中的"假設檢驗"的基本思想:首先假設特徵詞與類別直接是不相關的

如果利用chi分布計算出的檢驗值偏離閾值越大,那麼更有信心否定原假設,接受原假設的備則假設:特徵詞與類別有著很高的關聯度。

(5)wllr(weighted log likelihood ration)加權對數似然

(6)wfo(weighted frequency and odds)加權頻率和可能性

特徵抽取:進行了特徵由高維到低維的對映,特徵實際上產生了一定的變化。常用的演算法為主成分分析(pca)

caffe Python特徵抽取

caffe大家一般用到的深度學習平台都是這個,關於caffe的訓練通常一般都可以通過一些命令來執行,但是在deploy階段,如果是做實際的工程,那麼c 介面用得會相對比較多。但是caffe是支援python和matlab介面的,所以用python來做一些相關的特徵的處理以及額外的任務比較方便 這裡我...

Caffe Python特徵抽取

caffe大家一般用到的深度學習平台都是這個,關於caffe的訓練通常一般都可以通過一些命令來執行,但是在deploy階段,如果是做實際的工程,那麼c 介面用得會相對比較多。但是caffe是支援python和matlab介面的,所以用python來做一些相關的特徵的處理以及額外的任務比較方便 這裡我...

文字特徵抽取

例項 文字特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.text import countvectorizer import jieba defcountvec 對...