機器學習降維與度量學習

維數災難：高維資料情形下出現的資料樣本稀疏，距離計算困難等問題是所有機器學習方法共同面臨的嚴重障礙，被稱為維數災難。

降維：亦稱維數約簡，即通過某種數學變換將原始高維屬性空間轉變為乙個低維「子空間」，在這個子空間樣本密度大幅提高，距離計算也變得更為容易。

多維縮放（mds）：要求原始空間樣本之間的距離在低維空間中得以保持。

線性降維方法：z = w』x

主成分分析（pca）：是最常用的一種降維方法。1，樣本中心化；2.計算協方差矩陣；3,對協方差矩陣做特徵值分解；4；取最大的d』個特徵值所對應的特徵向量，得到投影矩陣w。

核化線性降維：核主成分分析（kpca）：

流形學習：借鑑了拓撲流形概念的降維方法。「流形」是在區域性與歐氏空間同胚的空間，換言之，它在區域性具有歐式空間的性質，能用歐氏空間來進行距離計算。

等度量對映（isomap ）：mds 是一種降維方法，它的目的就是使得降維之後的點兩兩之間的距離盡量不變（也就是和在原始空間中對應的兩個點之間的距離要差不多）。只是 mds 是針對歐氏空間設計的，對於距離的計算也是使用歐氏距離來完成的。如果資料分布在乙個流形上的話，歐氏距離就不適用了。isomap ，它主要做了一件事情，就是把 mds 中原始空間中距離的計算從歐氏距離換為了流形上的測地距離。當然，如果流形的結構事先不知道的話，這個距離是沒法算的，於是 isomap 通過將資料點連線起來構成乙個鄰接 graph 來離散地近似原來的流形，而測地距離也相應地通過 graph 上的最短路徑來近似了。

區域性線性嵌入：假設資料中每個點可以由其近鄰的幾個點重構出來。降到低維，使樣本仍能保持原來的重構關係，且重構係數也一樣。乙個流形在很小的區域性鄰域上可以近似看成歐式的，就是區域性線性的。那麼，在小的區域性鄰域上，乙個點就可以用它周圍的點在最小二乘意義下最優的線性表示。區域性線性嵌入把這個線性擬合的係數當成這個流形區域性幾何性質的刻畫。那麼乙個好的低維表示，就應該也具有同樣的區域性幾何，所以利用同樣的線性表示的表示式。

度量學習：在機器學習中，對高維資料進行降維的主要目的是希望找到乙個合適的低維空間，在此空間中進行學習能比原始空間效能更好。事實上，每個空間對應了樣本屬性上定義的乙個距離度量，而尋找合適的空間，實際上就是尋找乙個合適的度量距離。直接學習出乙個「距離度量」，這就是度量學習的基本動機。

機器學習降維與度量學習

降維與度量學習

機器學習基礎之降維與度量學習

聚類降維與度量學習

機器學習 降維與度量學習

降維與度量學習

機器學習基礎 之 降維與度量學習

聚類 降維與度量學習

相關推薦

機器學習降維與度量學習

機器學習基礎之降維與度量學習

聚類降維與度量學習