無監督學習 距離度量

2021-09-19 17:48:27 字數 961 閱讀 6945

距離度量(distance measure)函式dist(∙,∙)滿足的一般性質:

非負性:dist(xi,xj

)≥0;

同一性:dist(xi,xj)=0,當且僅當xi=xj;

對稱性:dist(xi,xj)

=dist(xj,xi),  ;

直遞性:dist(xi,xj)

≤dist(xi,xk)

+dist(xk,xj), .

常用的距離度量方法是閔可夫斯基距離(minkowski distance)距離度量法,一般表示為:

式中p≥0,p=2即為歐式距離(euclidean distance),p=1時即為曼哈頓距離(manhattan distance)。通常情況下,樣本屬性可分為「有序屬性」(ordinal attribute)和「無序屬性」(non-ordinal attribute),「有序屬性」的屬性值之間的距離具有一定的連續屬性,能夠直接在屬性值上計算距離,因此,從一定意義上來講,閔可夫斯基距離通常用於有序屬性。而無序屬性可用vdm(value difference metric)[stanfill and waltz, 1986],其表示為:

式中,當樣本中不同屬性的重要性不同時,可以使用「加權距離」(weight distance),以加權「閔可夫斯基距離」(minkowski distance)為例:

其中權重

參考自周志華《機器學習》

有監督學習和無監督學習 無監督學習

一.無監督學習包含的演算法 聚類 kmeans聚類演算法 降維 pca 之所以叫無監督學習 是因為模型是從無標籤的資料開始學習,沒有目標值。二.kmeans聚類 1.聚類演算法步驟 定義 將高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料,創造新的變數 作用 降低原始資料的維數 複雜度 損...

無監督學習與監督學習

1.無監督和有監督的理解方法有很多,主要可以從以下幾方面來理解 1 無監督與監督學習的區別在於乙個無教學值,乙個有教學值。但是,個人認為他們的區別在於無監督學習一般是採用聚簇等演算法來分類不同樣本。而監督學習一般是利用教學值與實際輸出值產生的誤差,進行誤差反向傳播修改權值來完成網路修正的。但是無監督...

監督學習和無監督學習

機器學習要解決的第一類問題是分類問題。機器學習的另一項任務是回歸,它主要用於 數值型資料。大多數人可能都見過回歸的例子 資料擬合曲線 通過給定資料點的最優擬合曲線。分類和回歸都屬於監督學習,之所以稱之為監督學習,是因為這類演算法必須知道 什麼,即目標變數的分類資訊。與監督學習對應的是無監督學習,此時...