python 降維與資料聚類之 TSNE

計算機可以處理任意多維的資料集，但我們人類認知只侷限於3維空間，計算機依然需要我們，所以需要通過一些方法有效的視覺化高維資料。通過觀察現實世界的資料集發現其存在一些較低的本徵維度，同時，盡可能多地保持高維資料的重要特徵。

在高維空間相似的資料點，對映到低維空間距離也是相似的。常規的做法是用歐式距離表示這種相似性，而sne把這種距離關係轉換為一種條件概率來表示相似性，即利用兩點的條件概率來度量空間中兩點的相似度，那麼乙個較為合理的降維方式是使得高維空間的條件概率和低維空間的條件概率應該對應相等。如何衡量兩個分布之間的相似性？當然是用經典的kl距離(kullback-leibler divergence)。sne希望能夠找到乙個低維資料表示，以最小化所有資料點的kl距離。

在乙個10維空間中，有可能存在11個點，且兩兩距離相等。而在二維空間中，最多只能找到找到3個點，且它們兩兩距離相等。因此，想在2維空間中完整地表示10維空間中的距離關係是不可能的。

從上圖可以看出，不同類別的簇擠在一起，無法區分開來，這就是擁擠問題。如果沒有顏色標記，可能根本區分不出類別。實際上，擁擠問題的出現與某個特定演算法無關，而是由於高維空間距離分布和低維空間距離分布的差異造成的。

假設乙個以資料點x為中心，半徑為r的m維球(二維空間就是圓，三維空間就是球)，且資料點是在m維球中均勻分布的。根據對二維空間和三維空間的想象，我們可以知道，位於圓周和球面附近的點的數量肯定多於其他位置，也就是說，資料集中資料點與x點的距離的分布是不均衡的，即中心區域資料點少，邊沿區域資料點多。如果這種不均衡的距離關係保留到低維，肯定會出現擁擠問題。

出現上述問題的主要原因在於資料中存在離群點，而sne中使用的高斯分布對雜訊非常敏感，因此在tsne中，採用t分布這種長尾分布。下圖顯示的是高斯分布normal和t分布在含有離群點和含有離群點兩種情況下的表現。可以看出，高斯分布對離群點很敏感，容易受到影響，而t分布則不受影響。

tsne 執行極慢，pca 則相對較快；因此，尤其在視覺化高維資料時，常先用 pca 進行降維，再用 tsne 進一步降維。例如，對於minist資料集，每個手寫體數字的共有28x28=784畫素。為了加速計算的同時不嚴重扭曲點間距離的情況下抑制某些雜訊，首先利用pca降維至30維，再使用tsne進行降維，最終轉換為二維。

data_pca= pca(n_components=30).fit_transform(data)
data_pca_tsne = tsne(n_components=2).fit_transform(data_pca)

tsne降維的動態過程如下所示。更多細節請移步：從sne到t-sne再到largevis

python 降維與資料聚類之 TSNE

聚類和降維

聚類降維與度量學習

6 聚類（K means）降維（Pca）

python 降維與資料聚類之 TSNE

聚類和降維

聚類 降維與度量學習

6 聚類（K means） 降維（Pca）

相關推薦

聚類降維與度量學習

6 聚類（K means）降維（Pca）