機器學習中分類與聚類的本質區別

機器學習中有兩類的大問題，乙個是分類，乙個是聚類。

在我們的生活中，我們常常沒有過多的去區分這兩個概念，覺得聚類就是分類，分類也差不多就是聚類，下面，我們就具體來研究下分類與聚類之間在資料探勘中本質的區別。

分類有如下幾種說法，但表達的意思是相同的。

分類問題是用於將事物打上乙個標籤，通常結果為離散值。例如判斷一幅上的動物是乙隻貓還是乙隻狗，分類通常是建立在回歸之上，分類的最後一層通常要使用softmax函式進行判斷其所屬類別。分類並沒有逼近的概念，最終正確結果只有乙個，錯誤的就是錯誤的，不會有相近的概念。最常見的分類方法是邏輯回歸，或者叫邏輯分類。

分類演算法的侷限

分類作為一種監督學習方法，要求必須事先明確知道各個類別的資訊，並且斷言所有待分類項都有乙個類別與之對應。但是很多時候上述條件得不到滿足，尤其是在處理海量資料的時候，如果通過預處理使得資料滿足分類演算法的要求，則代價非常大，這時候可以考慮使用聚類演算法。

聚類的相關的一些概念如下

因為最近在研究者兩種演算法，也就剛好用來說一下分類和聚類不同的演算法。

svm與二分k均值演算法的區別之一：支援向量機（svm）是一種分類演算法，二分k均值演算法屬於一種聚類演算法。

在《資料探勘導論（完整版）》這本書第306頁中有這樣一句話：聚類可以看做一種分類，它用類標號建立物件的標記，然而只能從資料匯出這些標號。相比之下，前面所說的分類是監督分類（supervised classification）:即使用有類標號已知的物件開發的模型，對新的、無標記的物件賦予類標號。為此，有時稱聚類分析為非監督分類（unsupervised classification）。在資料探勘中，不附加任何條件使用術語分類時，通常是指監督分類。

因此，svm與二分k均值演算法的區別之一：支援向量機（svm）是一種監督分類演算法，二分k均值演算法屬於一種非監督分類演算法。

機器學習中分類與聚類的本質區別

機器學習中分類與聚類的本質區別

分類與聚類的本質區別

機器學習中分類和聚類的區別

相關推薦