聚類和降維

聚類是用於尋找資料內在的分布結構。既可以作為乙個單獨的過程，如異常檢測等；也可作為分類等其他學習任務的前驅過程。聚類是標準的無監督學習。

在一些推薦系統中需要確定新使用者的型別，但「使用者型別」這個概念可能無法精確定義，此時往往會先對原有的使用者資料進行聚類。然後根據聚類的結果將每個簇定義為乙個類。然後在基於這些類別取進行相應的分類訓練，以判斷新使用者的型別。

降維主要是為了緩解維數災難的乙個重要方法。

主要是通過數學變換將原始的高維屬性轉變到乙個低維的子空間。雖然人們平時觀測到的資料基本都是高維的，但實際上真正與學習任務的分布相關的往往是低緯度的分布。所以，一般可以通過最主要的幾個特徵維度就可以實現對資料的描述。如kaggle上的鐵達尼號生還問題。其主要是通過給定乙個人的許多描述特徵如年齡、姓名、性別和票價等來判斷其是否能在海灘中生還。這就需要先進行特徵篩選，從而找出主要的特徵，讓學校到的模型有更好地泛化性。

(1) 聚類和降維都可以作為分類等問題的預處理步驟。

(2) 但他們雖然都可以實現對資料的約減，但二者使用情況不同。聚類針對的是資料點，而降維針對的是資料的特徵。

聚類常見的有k-means，層次聚類，基於密度的聚類等；降維中常見的有pca、isomap、lle等。

本文摘自「深度學習500問」。

聚類和降維

聚類降維與度量學習

6 聚類（K means）降維（Pca）

學習筆記聚類降維矩陣分解

聚類和降維

聚類 降維與度量學習

6 聚類（K means） 降維（Pca）

學習筆記 聚類降維矩陣分解

相關推薦

聚類降維與度量學習

6 聚類（K means）降維（Pca）

學習筆記聚類降維矩陣分解