相似性度量 聚類

2021-04-13 07:25:41 字數 1058 閱讀 2797

影象分割與特徵提取

相似性度量—聚類

前面介紹的分類問題是利用已知類別的樣品來構造分類器。其訓練集樣品是已知類別的,所以又稱為有監督學習。在已知類別樣品的指導下對單個待測樣品進行分類。聚類問題則不同,它事先不了解一批樣品中的每乙個樣品的類別或者其他的先驗知識,而唯一的分類根據是樣品的特性。利用樣品的特性來構造分類器,這種分類稱為無監督分類沒,通常叫做聚類或集群。

聚類分析是對探測資料進行分類分析的乙個工具,許多學科要根據所測得的或感知到的相似性對資料進行分類,把探測資料歸入到各個聚合類中,且在同乙個聚合類中的模式比不同聚合類中的模式更相似,從而對模式間的相互關係做出估計。聚類分析的結果可以被用來對資料提出初始假設,分類新資料,測試資料的同型別及資料壓縮。

聚類演算法的重點是尋找特徵相似的聚合類。人類是二維的最佳分類器,然而大多數實際問題的解決涉及高維的聚類。對高維空間內的資料的直觀解釋,其困難是十分明顯的。另外,資料也不會服從規則的理想結構,這就是有大量聚類演算法出現在文獻中的原因。由於在影象中進行聚類分析,一副影象中含有多個物體,需要對不同的物體分割標識。要想對不同物體進行歸類,必須掌握以下內容。

1.聚類的基本概念

2.對影象進行分割,找出各個物體,對物體標識。

3.對各個物體進行測量,例如測量出面積、周長等,提取各個物體的特徵。

4.根據這些特徵,應用聚類演算法進行相似性分析,然後歸類。

1.聚類的定義

evertt提出乙個聚合類是一些相似的實體集合,而且不同聚合類的實體是不相似的。在乙個聚合類內的兩個點間的距離小於在這個類內任意點和不在這個類內的另一任意點的距離。聚合類可以被描述成在d維空間內存在較高密度點的連續區域和較低密度點的區域,而較低密度點的區域把其他較高密度點的區域分開。

在模式空間s中,若給定n個樣品x1,x2...xn,聚類的定義為:按照相互類似的程度找到相應的區域

r1,r2...rk,,對任意xi歸入其中一類,而且不會同時屬於兩類

選擇聚類的方法應以乙個理想的聚類概念為基礎。然而如果資料不滿足由聚類技術所作的假設,則演算法不是去發現真實的結構而是在資料上強加上某一種結構。

聚類準則

設有未知類別的n個樣品, 

相似性度量 聚類

影象分割與特徵提取 相似性度量 聚類 前面介紹的分類問題是利用已知類別的樣品來構造分類器。其訓練集樣品是已知類別的,所以又稱為有監督學習。在已知類別樣品的指導下對單個待測樣品進行分類。聚類問題則不同,它事先不了解一批樣品中的每乙個樣品的類別或者其他的先驗知識,而唯一的分類根據是樣品的特性。利用樣品的...

相似性度量

二元向量的相似性度量 每一維都少的資訊量,主要是0,1等有 or 沒有屬性 dice 2 x y x y 2保證 0,1 維數不一致時,差別大。jaccard x y x y 交疊程度小時,值較低 交疊係數 x y min 互相之間的包含性,1 cosine x y 根號 x y 對於實值 只有co...

相似性度量

一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0 距離要非負 3.對稱性,d x,y d y,x 如果a到b距離是a,那麼b到a的距離也應該是a 4.三角形法則 兩個之和大於第三邊 d x,k d k,y d x,y 滿足這4個條件...