OpenCv Kmeans演算法及實現

kmeans演算法：基於劃分的聚類方法，適用於資料預處理，但影象分割的消耗的時間太長並且效果不怎麼好。

基本思想：以空間中k個點為中心進行聚類，對最靠近他們的物件歸類。通過迭代，逐次更新各聚類中心的值，直到得到最好的聚類結果。

演算法描述：

1、適當選擇c個類的初始中心;

2、在第k次迭代中，對任意乙個樣本，求其到c個中心的距離，將該樣本歸到距離最短的中心所在的類;

3、利用均值等方法更新該類的中心值;

4、對於所有的c個類的聚類中心，如果利用2、3的迭代更新後，值保持不變，則迭代結束，否則，繼續。

該演算法的最大優勢在於簡潔、快速。

關鍵在於：初始中心的選擇和距離公式。

演算法流程：

1、從n個資料中任意選擇k個物件作為初始聚類中心;

2、對於剩下的，根據他們與這些聚類中心的相似度（距離），分別將其分配給與之最相似的聚類;

3、再計算每個所獲新聚類的聚類中心（該聚類內所有物件的均值）;

4、重複上述，直到標準測度函式開始收斂為止。

一般採用均方差作為標準測度函式。

k個聚類各聚類本身盡可能緊湊，但是各聚類之間盡可能的分散。

演算法缺陷：

1、必須人為指定所聚的類的個數k，但實際情況中，往往很難確定中的類別數。；

2、如果使用歐式距離來衡量相似度的話，可能會得到錯誤的結果，因為沒有考慮到屬性的重要性和相關性。

為了減少這種錯誤，在使用kmeans距離時，一定要使樣本的每一維資料歸一化，不然的話由於樣本的屬性範圍不同會導致錯誤的結果。

3、使用空間資訊後，影象的分割後受空間的影響大（同一類的資料如果分布較遠，不是高斯型的，就會錯分），因為影象分割本身要求資料是呈超球體(高斯類)分布。k-means得到的是線性判決面，因為演算法使用的準則函式是最小均方誤差，相當於不同類別間求最小二乘直線擬合。

4、在opencv裡判斷聚類誤差是由類別中心點的兩次迭代結果的差決定的，即當類別中心點都變化不大時或者說不變時，聚類結束。多次執行程式會發現不同的結果，因為程式可能會陷入不同的區域性極值，所以如果要找到全域性最優，可以多次執行找出誤差最小值。

涉及到的函式簡介：

1、void rng::fill(inputoutputarray mat, int disttype, inputarray a, inputarray b, bool saturaterange=false )

功能：對矩陣mat填充隨機數，隨機數的產生方式有引數「int disttype

」來決定，如果其型別為rng::uniform，則表示產生均一分布的隨機數，如果為rng::normal則表示產生高斯分布的隨機數。

對應的「inputarray a, inputarray b,

」為上面兩種隨機數產生模型的引數。如果隨機數產生模型為均勻分布，則引數a表示均勻分布的下限，引數b表示上限。如果隨機數產生模型為高斯模型，則引數a表示均值，引數b表示方程。

「bool saturaterange=false

」只有當隨機數產生方式為均勻分布時才有效，表示是否產生的資料要布滿整個範圍。

用來儲存隨機數的矩陣mat可以是多維的，也可以是多通道的，目前最多只能支援4個通道。

2、void randshuffle(inputoutputarray dst, double ite***ctor=1., rng* rng=0 )

功能：隨機打亂1d陣列dst裡面的資料，隨機打亂的方式由隨機數發生器rng決定。ite***ctor為隨機打亂資料對數的因子，總共打亂的資料對數為：dst.rows*dst.cols*ite***ctor，如果為0，表示沒有打亂資料。

3、class termcriteria

功能：類termcriteria 一般表示迭代終止的條件，如果為cv_termcrit_iter，則用最大迭代次數作為終止條件，如果為cv_termcrit_eps 則用精度作為迭代條件，如果為cv_termcrit_iter+cv_termcrit_eps則用最大迭代次數或者精度作為迭代條件，看哪個條件先滿足。

4、double kmeans(inputarray data, int k, inputoutputarray bestlabels, termcriteria criteria, int attempts, int flags, outputarray centers=noarray() )

功能：該函式為kmeans聚類演算法實現函式。

引數data表示需要被聚類的原始資料集合，一行表示乙個資料樣本，每乙個樣本的每一列都是乙個屬性；

引數k表示需要被聚類的個數；

引數bestlabels表示每乙個樣本的類的標籤，是乙個整數，從0開始的索引整數；

引數criteria表示的是演算法迭代終止條件；

引數attempts表示執行kmeans的次數，取結果最好的那次聚類為最終的聚類，要配合下乙個引數flages來使用；

引數flags表示的是聚類初始化的條件。

其取值有3種情況，如果為kmeans_random_centers，則表示為隨機選取初始化中心點，如果為kmeans_pp_centers則表示使用某一種演算法來確定初始聚類的點；如果為kmeans_use_initial_labels，則表示使用使用者自定義的初始點，但是如果此時的attempts大於1，則後面的聚類初始點依舊使用隨機的方式；

引數centers表示的是聚類後的中心點存放矩陣。

該函式返回的是聚類結果的緊湊性，其計算公式為：

在使用k-means函式時，注意輸入和輸出矩陣的資料型別，是32fc1

。輸入矩陣的每一行是乙個輸入向量。opencv矩陣的特點是，矩陣的元素本身可以是個向量，即元素的資料通道，這樣方便影象處理。所以乙個樣本向量可以用矩陣的一行表示即單通道多資料，也可以用乙個多資料通道的矩陣元素表示。

**實現：

#include

using namespace cv;

using namespace std;

int main( )

;mat img(500, 500, cv_8uc3);

rng rng(123456); //隨機數產生器

while(1)

randshuffle(points, 1, &rng);

//因為要聚類，所以先隨機打亂points裡面的點，注意points和pointchunk是共用資料的。

kmeans(points, clustercount, labels,

termcriteria( cv_termcrit_eps+cv_termcrit_iter, 10, 1.0),

3, kmeans_pp_centers, centers);

//聚類3次，取結果最好的那次，聚類的初始化採用pp特定的隨機演算法。

img = scalar::all(0);

for( i = 0; i < samplecount; i++ )

imshow("clusters", img);

char key = (char)

waitkey(); //等待

if( key == 27 ) // 'esc'

break;

}return 0;

}

OpenCv Kmeans演算法及實現

Opencv Kmeans聚類演算法

Opencv Kmeans聚類演算法

演算法及演算法效率

OpenCv Kmeans演算法及實現

Opencv Kmeans聚類演算法

Opencv Kmeans聚類演算法

演算法及演算法效率

相關推薦