機器學習基礎之降維與度量學習

**：

其原理是，對於給定的待測試樣本，基於某種距離找出訓練集中與其最靠近的k個訓練樣本，然後基於這k個鄰居的屬性來進行計算，使用k個鄰居的「均值」作為待測試樣本的最終分類值。當前分類方法受距離計算原理影響，可能不同的距離會得到不同的分類結果；也收到k的取值影響，可能也會由於k的範圍不同得到不同的分類區間。

當樣本屬性有較高維度時，其樣本之間距離的計算量會非常大，為了盡可能減少計算量可以使用降維的方法，即將高維的原始樣本通過數學變換得到乙個低維的空間，同時盡可能保持原來樣本之間的關係。可以簡單理解成，將高維空間的資料對映或者變換到低維空間，一方面因為部分維度即可體現當前樣本的關鍵分類屬性，另一方面維度的變換後更便捷的檢視分類資訊，常用的有線性變換。

x ∗=

xx^* = w^tx

x∗=wtx

常規數學上的主成分分析是對資料的維度進行特徵提取，僅獲取對樣本資料影響較大的幾個主要的維度，忽略其他的維度資訊。當前小節提到的主成分跟常規的思路一樣，做法上可以理解為將所有樣本的維度投影到乙個超平面上，使得投影結果之間的間距盡可能大，即可以區分原來的樣本；同時各樣本到超平面的距離盡可能近。

常規的降維方法是使用線性降維，但很多現實的任務中線性變換不太容易找到，或者丟失的資料資訊太多，所以也引入非線性降維，一種常用的方法是，基於核技巧對線性降維方法進行核化。

是指那些在區域性具有歐氏空間性質，可以使用歐氏距離進行距離計算的樣本屬性空間，借鑑了拓撲流形概念的降維方法。常用方法有等度量對映和區域性線性嵌入，前者是使用近使用鄰居節點作為計算節點來計算，並選擇所有路徑中最短的路徑作為兩個節點之間的距離；後者也是使用鄰居節點進行計算，但後者保留了初始節點之間的線性關係。

度量學習的意思是直接以方便距離計算為目標的降維方式，而不是先完成降維之後再進行距離計算，畢竟降維的目標也是方便最終的空間比初始空間的計算效能更好。

機器學習基礎之降維與度量學習

機器學習降維與度量學習

降維與度量學習

機器學習之降維

機器學習基礎 之 降維與度量學習

機器學習 降維與度量學習

降維與度量學習

機器學習之降維

相關推薦

機器學習基礎之降維與度量學習

機器學習降維與度量學習