特徵向量降維常見的幾種方法

2021-08-22 06:03:38 字數 605 閱讀 6232

這裡就簡單描述下。

通常我們會使用特徵訓練模型或特徵矩陣求相似度。高維的特徵帶來的計算成本非常大,甚至完不成。同時一般高維的特徵都比較稀疏,直接使用高維的特徵訓練需要樣本量很大,難以擬合,模型效果不好。

通常我們訓練模型時,會人為挑選特徵,控制每類特徵維度範圍,比如年齡我們使用one-hot的方式表示,分成0-10,10-20...,>100這幾個段,也就是將年齡對映成了11維,相比如果每個年齡表示一維,這也是一種降維的方法。

還有一種降維的方式是,假如我們人為不確定那種特徵的好壞,我們可以將初選的所有特徵(所有維度)哪去訓練,將得到的模型中權重為0或與0相差甚微的特徵(向量去掉),再重新訓練,一直到比較合適為止。

除上訴幾種簡單的降維方法。工作中還經常遇到兩種情況需要降低特徵維度。

又假如我們要把使用者向量選做特徵參與gbdt的訓練,此時也是要首先獲取使用者的向量表示。

所以相比原始的10億維(假設使用one-hot),embedding其實也是一種降維的方法。

embedding 常見的幾種辦法

todo 之後整理

每個降維方法的原理可自行查詢。下面只給出幾個使用示例。

降維示例

todo 後面補充

常見的特徵降維方法

主成成分分析 pca 線性判別分析 linear discriminant analysis,lda 對映後類內方差最小,類間方差最大 區域性線性嵌入 locally linear embedding,lle isomap求全域性最優解,lle演算法計算量較小 多維縮放 multidimension...

資料的特徵選擇與降維

雜訊 部分特徵對 結果有負影響 特徵選擇就是單純地從提取到的所有特徵中選擇部分特徵作為訓練集特徵,特徵在選擇前和選擇後可以改變值 也可以不改變值,但是選擇後的特徵維數肯定比選擇前小,畢竟我們只選擇了其中的一部分特徵 輸出 2,0 1,4 1,1 1 from sklearn.feature sele...

特徵選擇和降維的區別

學習的過程中,關於特徵選擇和降維都是防止資料過擬合的有效手段,但是兩者又有本質上的區別。降維降維本質上是從乙個維度空間對映到另乙個維度空間,特徵的多少別沒有減少,當然在對映的過程中特徵值也會相應的變化。舉個例子,現在的特徵是1000維,我們想要把它降到500維。降維的過程就是找個乙個從1000維對映...