sklearn庫的總結降維方式

可以看到庫的演算法主要有四類：分類，回歸，聚類，降維。其中：

常用的回歸：線性、決策樹、svm、knn ；整合回歸：隨機森林、adaboost、gradientboosting、bagging、extratrees

常用的分類：線性、決策樹、svm、knn，樸素貝葉斯；整合分類：隨機森林、adaboost、gradientboosting、bagging、extratrees

常用聚類：k均值（k-means）、層次聚類（hierarchical clustering）、dbscan

常用降維：lineardiscriminantanalysis、pca

1. 線性回歸

2. 邏輯回歸

3. 樸素貝葉斯分類器

4. knn

5. 決策樹回歸

6. 決策樹分類

7. svc

8. svr

9. adaboost

10. gradientboost（gbdt）

11. randomforest

12. extratree

13. bagging

1）lda是有監督的降維方法，而pca是無監督的降維方法

2）lda降維最多降到類別數k-1的維數，而pca沒有這個限制。

3）lda除了可以用於降維，還可以用於分類。

4）lda選擇分類效能最好的投影方向，而pca選擇樣本點投影具有最大方差的方向。

lineardiscriminantanalysis(lda):

就是將多維的樣本資料集對映到乙個座標軸上(可以是多維的(以降維作為目的)),使得樣本資料可以在這個座標軸上就可以進行分類，和最小的類內距離，投影後使樣本在新的子空間有最大的類間距離即樣本在該空間中有最佳的可分離性。（即用這個座標系就可以進行樣本分類了,以達到計算簡單，減小計算時間）

分類前的降維

lda降維:是為了在座標軸上的同類更集中，異類更分散

pca降維：(目的了減小維數，以達到計算簡單，減小計算時間)

就是通過計算得到乙個座標軸，得到樣本資料集在這個座標軸上的對映可以最大情度的表示原來的資料集樣本，(如車的速度（英里每小時,公里每小時,這兩個資料就可以變為乙個就可以了）)

找到一組基向量來線性表示這些人臉向量，得到新的座標向量能夠有最大的方差。

資訊冗餘(就是某個維度的資訊與另乙個維度的資訊的相關關係的，那麼這個維度就可以不要了，達到降維的效果)

[url]

pca降維：是使樣本資料集在某個座標軸上更加分散，更能表達原樣本資料集的分布情況(更能表達資料集的方向分布情況)

在真實的資料中總是會存在許多的冗餘資訊，比如：

1、一支筆的長度是15cm，也可以說是0.15m。但是把這兩者當作兩個特徵，那麼他們所表達的意義其實是完全一樣的。這裡我要表達的就是兩個特徵之間的相關性，如果兩個特徵相關性很強，那麼完全可以合併成乙個特徵。

2、如果給你很多人的特徵：身高、體重、頭髮長度、腿長、單眼皮/雙眼皮、酒窩、大眼睛/小眼睛、黑頭髮/黃頭髮、是否有鼻炎……然後根據這些內容去區分是男人還是女人，但是呢，現在給你的人的樣本數量又不多，裡面剛好有鼻炎的全是女生，沒有鼻炎的全是男生，但是其實鼻炎對於區分男女其實根本沒有啥作用。（這就叫過擬合），所以很有必要對資料進行降維，去掉那些沒有用的雜訊。

kpca,中文名稱」核主成分分析「,是對pca演算法的非線性擴充套件。

lle原理總結:區域性線性嵌入(locally linear embedding，以下簡稱lle)也是非常重要的降維方法。lle必須要基於流形不能閉合(相當於是從乙個方向看去的感覺)

[url]

mds（multidimensional scaling）多維尺度分析(盡量保持空間歐氏距離一致)

[url]

t-sne(t-distributed stochastic neighbor embedding)

[url]

當我們想要對高維資料進行分類，又不清楚這個資料集有沒有很好的可分性（即同類之間間隔小，異類之間間隔大），可以通過t-sne投影到2維或者3維的空間中觀察一下。

t-sne（tsne）將資料點之間的相似度轉換為概率。原始空間中的相似度由高斯聯合概率表示，嵌入空間的相似度由「學生t分布」表示。就是說以相似度進行降維的

其他的一些降維方法

mds(multidimensional scaling )

isomap

t-sne(t-distributed stochastic neighbor embedding)

lda(linear discriminant analysis)

流形資料(流形學)

雖然isomap，lle和variants等資料降維和視覺化方法，更適合展開單個連續的低維的manifold。

各種演算法的效果圖

[url]

sklearn庫的總結降維方式

（sklearn）機器學習（六）特徵降維

降維方法總結

降維演算法總結

sklearn庫的總結 降維方式

（sklearn）機器學習（六）特徵降維

降維方法總結

降維演算法總結

相關推薦

sklearn庫的總結降維方式