油管最火十分鐘機器學習數學課降維

降維就是發現資料中非線性與非區域性的關係，而這些關係在原始的特徵空間中是不明顯的。如果我們能夠減少某些資料的維度，我們就可以將其視覺化，因為在二維和三維中的投影可以繪製出來。在乙個具有多維度的資料集上訓練乙個資料模型，通常很多複雜，而且容易發生過擬合。並非所有的特徵都和我們要解決的問題是相關的。如果我們能夠減少維度就可以減少噪音也就是資料中無關緊要的部分。

降維分為兩個部分即特徵選擇和特徵抽取。

特徵選擇是指找到與問題相關的特徵，選擇依據可以基於我們個人的直覺或者我們可以訓練乙個模型讓它找到最佳特徵（深度學習）。特徵抽取是指把資料從高緯度空間轉到低緯度空間之後找到新的特徵。降維的一種方法是主成分分析（pca），pca將原有的變數轉換成一組新的變數，而新的變數是原變數的線性組合，這些新的變數被稱作主成分。pca是一次正交線性變換，將原有的資料轉到新的座標系，這樣投影之後，第乙個主成分的方差最大，第二個成分方差第二，以此類推。方差是用來衡量資料是如何分布的。乙個籃球隊球員身高方差是很小的，但加入一組小學生身高資料後，整個資料集的方差便會很大。

pca第一步是將資料標準化，pca是乙個最大化方差的過程，它將原有的資料投射到某乙個方向以最大化方差。我們畫出乙個小的資料集不同主成分之間的方差，好像只需要乙個成分就可以解釋資料集中所有的方差。但是如果先對資料進行標準化，可以看出其他成分也會對總的方差有一定貢獻。

總的來說，主成分分析將資料集轉化到乙個低維子空間，所以能夠進行視覺化，從而我們可以找到其中隱含關係。主成分就是結合特徵值的特徵向量，它們描述了在初始特徵空間的資料中最大方差的方位，方差衡量了資料到底有多分散。

油管最火十分鐘機器學習數學課降維

油管最火十分鐘機器學習數學課超引數優化

課間十分鐘

十分鐘的代價

油管最火十分鐘機器學習數學課 降維

油管最火十分鐘機器學習數學課 超引數優化

課間十分鐘

十分鐘的代價

相關推薦

油管最火十分鐘機器學習數學課降維

油管最火十分鐘機器學習數學課超引數優化