MDS資料視覺化方法

大家一般想到降維，就自然想到一種方法pca，其實還有一種方法mds（multidimensional scaling），可以獲得樣本間的相似性的空間表達。

先說說這兩種方法的相似處，pca是把觀察的資料用較少的維數來表達，這點上兩種方法的相似的；兩種方法的不太之處在於，mds利用的是成對樣本間相似性，目的是利用這個資訊去構建合適的低維空間，是的樣本在此空間的距離和在高維空間中的樣本間的相似性盡可能的保持一致。

根據樣本是否可計量，又分為計量多元尺度法（metric mds）和非計量多元尺度法（nonmetric mds）。古典mds，又稱為torgerson scaling or torgerson–gower scaling，不得不先介紹一下最早提出這個思想的大牛，他的文章torgerson, w.s. (1958). theory & methods of scaling. new york: wiley。對於metric mds，這個方法以樣本間相似度作為實際輸入，需要樣本是等距（interval）比例（ratio）尺度，優點是精確，可以根據多個準則評估樣本間差異，缺點是計算成本高，耗時。對於很多應用問題，樣本不費可計量，需要使用nonmetric mds，這種方法接受樣本的順序尺度作為輸入，並以此自動計算相似值。樣本尺度要求是順序的（ordinal），較簡便，直觀，從非計量的樣本匯出計量的分析結果，應用範圍更廣，但沒法知道評估準則，效果較差。

mds方法有5個關鍵的要素，分別為主體、客體、準則、準則權重、主體權重。具體定義為：

1）客體：被評估的物件。可以認為是待分類的幾種類別，數量m。

2）主體：評估客體的單位。就是訓練資料。n個

3）準則：根據研究目的自行定義，用以評估客體優劣的標準。k個

4）準則權重：主體衡量準則重要性後，對每個準則分別賦予權重值。p個

5）主體權重：研究者權衡準則重要性後，對主體賦予權重值。n個

對於要分析的資料報括i個物體，定義乙個距離函式的集合，其中δ

i,j是第i個和第j個物件之間的距離。於是有

mds演算法的目的就是根據這個δ，尋找i個向量

也就是說，mds試圖找到乙個子空間rn，i個物體嵌入在這個子空間中，而彼此的相似度被盡可能的保留。如果這個子空間的維數n選擇為2或者3，可以畫出向量xj獲得乙個i個物體相似性的乙個視覺化的結果。注意向量xj不是唯一的：對於歐式距離，可以被任意旋轉和變換，因為這些變換不會改變樣本間的距離。

有很多途徑可以得到向量xj。通常mds可以被看做是乙個優化問題，尋找（x1，...xi）被看成是最小化目標函式，例如

可以利用一些數值優化的方法得到這個最優解。

最後附帶乙個很簡單很簡單的示例，希望對您理解演算法有些幫助

MDS資料視覺化方法

資料視覺化 什麼是資料視覺化

資料視覺化

資料視覺化

相關推薦

資料視覺化什麼是資料視覺化