sklearn庫的總結 降維方式

2021-09-02 21:55:58 字數 2364 閱讀 9638

可以看到庫的演算法主要有四類:分類,回歸,聚類,降維。其中:

常用的回歸:線性、決策樹、svm、knn ;整合回歸:隨機森林、adaboost、gradientboosting、bagging、extratrees

常用的分類:線性、決策樹、svm、knn,樸素貝葉斯;整合分類:隨機森林、adaboost、gradientboosting、bagging、extratrees

常用聚類:k均值(k-means)、層次聚類(hierarchical clustering)、dbscan

常用降維:lineardiscriminantanalysis、pca

1. 線性回歸

2. 邏輯回歸

3. 樸素貝葉斯分類器

4. knn

5. 決策樹回歸

6. 決策樹分類

7. svc

8. svr

9. adaboost

10. gradientboost(gbdt)

11. randomforest

12. extratree

13. bagging

1)lda是有監督的降維方法,而pca是無監督的降維方法

2)lda降維最多降到類別數k-1的維數,而pca沒有這個限制。

3)lda除了可以用於降維,還可以用於分類。

4)lda選擇分類效能最好的投影方向,而pca選擇樣本點投影具有最大方差的方向。

lineardiscriminantanalysis(lda):

就是將多維的樣本資料集對映到乙個座標軸上(可以是多維的(以降維作為目的)),使得樣本資料可以在這個座標軸上就可以進行分類,和最小的類內距離,投影後使樣本在新的子空間有最大的類間距離即樣本在該空間中有最佳的可分離性。(即用這個座標系就可以進行樣本分類了,以達到計算簡單,減小計算時間)

分類前的降維

lda降維:是為了在座標軸上的同類更集中,異類更分散

pca降維:(目的了減小維數,以達到計算簡單,減小計算時間)

就是通過計算得到乙個座標軸,得到樣本資料集在這個座標軸上的對映可以最大情度的表示原來的資料集樣本,(如車的速度(英里每小時,公里每小時,這兩個資料就可以變為乙個就可以了))

找到一組基向量來線性表示這些人臉向量,得到新的座標向量能夠有最大的方差。

資訊冗餘(就是某個維度的資訊與另乙個維度的資訊的相關關係的,那麼這個維度就可以不要了,達到降維的效果)

[url]

pca降維:是使樣本資料集在某個座標軸上更加分散,更能表達原樣本資料集的分布情況(更能表達資料集的方向分布情況)

在真實的資料中總是會存在許多的冗餘資訊,比如:

1、一支筆的長度是15cm,也可以說是0.15m。但是把這兩者當作兩個特徵,那麼他們所表達的意義其實是完全一樣的。這裡我要表達的就是兩個特徵之間的相關性,如果兩個特徵相關性很強,那麼完全可以合併成乙個特徵。

2、如果給你很多人的特徵:身高、體重、頭髮長度、腿長、單眼皮/雙眼皮、酒窩、大眼睛/小眼睛、黑頭髮/黃頭髮、是否有鼻炎……然後根據這些內容去區分是男人還是女人,但是呢,現在給你的人的樣本數量又不多,裡面剛好有鼻炎的全是女生,沒有鼻炎的全是男生,但是其實鼻炎對於區分男女其實根本沒有啥作用。(這就叫過擬合),所以很有必要對資料進行降維,去掉那些沒有用的雜訊。

kpca,中文名稱」核主成分分析「,是對pca演算法的非線性擴充套件。

lle原理總結:區域性線性嵌入(locally linear embedding,以下簡稱lle)也是非常重要的降維方法。lle必須要基於流形不能閉合(相當於是從乙個方向看去的感覺)

[url]

mds(multidimensional scaling)多維尺度分析(盡量保持空間歐氏距離一致)

[url]

[url]

[url]

t-sne(t-distributed stochastic neighbor embedding)

[url]

當我們想要對高維資料進行分類,又不清楚這個資料集有沒有很好的可分性(即同類之間間隔小,異類之間間隔大),可以通過t-sne投影到2維或者3維的空間中觀察一下。

t-sne(tsne)將資料點之間的相似度轉換為概率。原始空間中的相似度由高斯聯合概率表示,嵌入空間的相似度由「學生t分布」表示。就是說以相似度進行降維的

其他的一些降維方法

mds(multidimensional scaling )

isomap

t-sne(t-distributed stochastic neighbor embedding)

lda(linear discriminant analysis)

流形資料(流形學)

雖然isomap,lle和variants等資料降維和視覺化方法,更適合展開單個連續的低維的manifold。

各種演算法的效果圖

[url]

(sklearn)機器學習(六)特徵降維

ndarray 維數 0維 標量 1維 向量 2維 矩陣 對二維陣列降維 此處的降維 降低特徵的個數降維的兩種方法 特徵選擇 filter過濾式 方差選擇法 低方差特徵過濾 相關係數 特徵與特徵之間的相關程度 embedded 嵌入式 決策樹正則化 深度學習 主成分分析低方差特徵過濾 特徵方差小 某...

降維方法總結

對降維效果的評價 比較降維前後學習器的效能 低維可以通過視覺化技術來判斷降維的效果 分類 一 低維嵌入 代表 mds演算法 基本思想 降維的乙個基本思想是,降維前後 保證樣本點的距離相等,即 原始空間中的距離在低維空間得以保持 mds演算法 1 通過距離不變的原理,推導出由高維空間距離矩陣d計算低維...

降維演算法總結

1.降維簡介 1 相關背景 1 在許多領域的研究與應用中,通常需要對含有多個變數的資料進行觀測,收集大量資料後進行分析尋找規律。2 因此需要找到一種合理的方法,在減少需要分析的指標同時,儘量減少原指標包含資訊的損失,以達到對所收集資料進行全面分析的目的。3 由於各變數之間存在一定的相關關係,因此可以...