機器學習基礎 之 降維與度量學習

2021-09-17 06:43:33 字數 896 閱讀 4248

**:

其原理是,對於給定的待測試樣本,基於某種距離找出訓練集中與其最靠近的k個訓練樣本,然後基於這k個鄰居的屬性來進行計算,使用k個鄰居的「均值」作為待測試樣本的最終分類值。當前分類方法受距離計算原理影響,可能不同的距離會得到不同的分類結果;也收到k的取值影響,可能也會由於k的範圍不同得到不同的分類區間。

當樣本屬性有較高維度時,其樣本之間距離的計算量會非常大,為了盡可能減少計算量可以使用降維的方法,即將高維的原始樣本通過數學變換得到乙個低維的空間,同時盡可能保持原來樣本之間的關係。可以簡單理解成,將高維空間的資料對映或者變換到低維空間,一方面因為部分維度即可體現當前樣本的關鍵分類屬性,另一方面維度的變換後更便捷的檢視分類資訊,常用的有線性變換。

x ∗=

wt

xx^* = w^tx

x∗=wtx

常規數學上的主成分分析是對資料的維度進行特徵提取,僅獲取對樣本資料影響較大的幾個主要的維度,忽略其他的維度資訊。當前小節提到的主成分跟常規的思路一樣,做法上可以理解為將所有樣本的維度投影到乙個超平面上,使得投影結果之間的間距盡可能大,即可以區分原來的樣本;同時各樣本到超平面的距離盡可能近。

常規的降維方法是使用線性降維,但很多現實的任務中線性變換不太容易找到,或者丟失的資料資訊太多,所以也引入非線性降維,一種常用的方法是,基於核技巧對線性降維方法進行核化。

是指那些在區域性具有歐氏空間性質,可以使用歐氏距離進行距離計算的樣本屬性空間,借鑑了拓撲流形概念的降維方法。常用方法有等度量對映和區域性線性嵌入,前者是使用近使用鄰居節點作為計算節點來計算,並選擇所有路徑中最短的路徑作為兩個節點之間的距離;後者也是使用鄰居節點進行計算,但後者保留了初始節點之間的線性關係。

度量學習的意思是直接以方便距離計算為目標的降維方式,而不是先完成降維之後再進行距離計算,畢竟降維的目標也是方便最終的空間比初始空間的計算效能更好。

機器學習 降維與度量學習

維數災難 高維資料情形下出現的資料樣本稀疏,距離計算困難等問題是所有機器學習方法共同面臨的嚴重障礙,被稱為維數災難。降維 亦稱維數約簡,即通過某種數學變換將原始高維屬性空間轉變為乙個低維 子空間 在這個子空間樣本密度大幅提高,距離計算也變得更為容易。多維縮放 mds 要求原始空間樣本之間的距離在低維...

降維與度量學習

這是我第一次看這一章節,所以我的理解應該都是比較淺顯的,寫這篇部落格一是寫一下自己學習的感受,好記性不如爛筆頭。二是為了與大家交流,希望大家給我指正。k近鄰學習是一種簡單的學習方法,就是採用一種監督的學習方法,給定測試樣本,基於某種距離找到距離樣本最近的k個訓練樣本。可以採用投票法 選擇樣本中出現最...

機器學習之降維

降維的意義 克服維數災難,獲取本質特徵,節省儲存空間,去除無用雜訊,實現資料視覺化 資料壓縮 視覺化資料 主成分分析 pca pca演算法 python 調庫實現 import matplotlib.pyplot as plt 畫圖 from sklearn.datasets import load...