聚類分析之基本介紹 一

2021-05-28 05:36:43 字數 1513 閱讀 9922

聚類分析是智慧型演算法中最為常見的演算法之一。從人類的認識角度來說,人從小到大都在學習,都在認識新事物,我們小的時候就擁有聚類的能力,當你吃過蘋果,看過橘子之後,常會看到同伴拿著吃的東西而羨慕不已,也許有時候你根本不知道那是什麼東西,但是你知道那是可以吃的,這在腦海中便有了把吃的和玩的區分的能力,但是這種對事物的聚類並不夠精確,通過歲月的積累,你知道了水果的種類,這樣漸漸的你將不同事物的歸類的準確性越高。在這裡要注意,它與分類不同,聚類不需要事先約束的規則,舉個通俗的例子,你知道了人可以分為男人和女人,當然這只是一種分類方式,現在有個人,她能懷孕,毫無疑問,你會將其歸為女人這一人群,通過分類,你知道了她是女人。然而聚類並不知道人可以分為男人和女人,它只是通過一些資料發現有些人是可以懷孕的,有些人是不能懷孕的,但是並不能去定義為男人或者女人,這是分類和聚類的簡單區別,概括的說,聚類是一種非監督的技術,而分類是屬於有監督的技術。

簡而言之,聚類就是講物件劃分為簇,使得同簇的物件盡可能相似,不同簇的物件盡可能相異。如何去衡量這種相似相異程度呢?常見的用相似度去衡量,在相似度計算之前首先需要對資料進行特徵抽取,比如我們要考慮乙個小區內**的**,那麼小區的**的總面積的和總**便不是直接的因素,我們應該以每個****的平均**作為參考因素,其次要提取特徵,有些資料是雜訊點,即不合理的資料,那麼需要盡可能過濾,否則對計算的結果會有影響,如在k均值聚類演算法中(以後會慢慢詳解),影響比較大。再次就是對特徵資料規範化處理,如**的平均**採用不同的度量標準則需要規範化,再比如對於物業費的收取,有的採用每月每平方公尺收多少錢,有的則採用每月每戶多少錢;還有一種資料就是對於資料的離散化和歸一化處理,如對於不同小區的開發商需要對開發商設定乙個等級a,b,c等,或者對其打分,打分就需要處理進一步的歸一化處理,為什麼要歸一化,因為不同人對其看待的標準是不一樣的,舉個例子,你在taobao上買東西對商品的評價與別人或多或少會有出入,這時就需要進一步的處理,最後則需要有效選擇特徵,能描述小區均價的資訊因素肯定很多,如交通,教育,周邊生態環境等,則有些因素影響不大,需要過慮,否則因素太多,使得資料的高維,形成「維災」。

對於相似度的計算一般有特徵投影和編輯距離方法。對於特徵投影,就是將資料對映到特徵空間,特徵空間中物件間的距離就位相似度。如小區的建築型別有高層,小高層等,則可以將這一特徵作為乙個座標維,不同小區的交通指數和教育指數也不同,則交通指數和教育指數也可以分別作為乙個維度,通過將不同小區對映到特徵空間,可以測量在n維空間的距離(有多種測量方法,如歐氏距離等)。對於編輯距離,顧名思義,以乙個物件為開始,編輯轉換成另乙個物件所花費的代價,如將小區a變換為小區b,則需要改變開發商,需要改變交通指數,其他因素都一樣,則編輯距離為d(a,b) = 2。

然而實際上,相似度的計算並非那麼簡單,因為考慮的因素不一樣對結果會有影響,處理的方式不一樣也會有影響,這些因素可以分為離散型,連續型和二值型的,還有些受測量刻度不同而影響,如順序的,間隔的,比值型的

在對聚類的基本概念有所了解後,下一章節將在這裡重點介紹聚類中衡量物件相似程度的距離的計算方法。

author:james yan

date:2011-9-15

from:

note:all references should be cited

聚類分析(一) 什麼是聚類分析

將一群物理物件或者抽象物件的劃分成相似的物件類的過程。其中類簇是資料物件的集合,在類簇中所有的物件都彼此相似,而類簇與類簇之間的物件是彼此相異。聚類除了可以用於資料分割 data segmentation 也可以用於離群點檢測 outlier detection 所謂的離群點指的是與 普通 點相對應...

聚類分析(一) 什麼是聚類分析

將一群物理物件或者抽象物件的劃分成相似的物件類的過程。其中類簇是資料物件的集合,在類簇中所有的物件都彼此相似,而類簇與類簇之間的物件是彼此相異。聚類除了可以用於資料分割 data segmentation 也可以用於離群點檢測 outlier detection 所謂的離群點指的是與 普通 點相對應...

聚類分析之 Kmeans演算法(一)

聚類分析是一種靜態資料分析方法,常被用於資料探勘 機器學習 模式識別等領域,聚類是一種無監督式的學習方法。它是在未知樣本類別的情況下,通過計算樣本彼此間的距離 歐式距離,馬式距離,漢明距離,余弦距離等 來估計樣本所屬類別。從結構性來劃分,聚類方法分為自上而下和自下而上兩種方法。聚類的演算法有很多種,...