機器學習連續域分類機器學習分類和聚類

## 機器學習-分類和聚類、分類和回歸、邏輯回歸和knn

1、分類：使用已知的資料集（訓練集）得到相應的模型，通過這個模型可以劃分未知資料。分類涉及到的資料集通常是帶有標籤的資料集，分類是有監督學習。一般分為兩步，訓練資料得到模型，通過模型劃分未知資料。2.聚類：直接使用聚類演算法將未知資料分為兩類或者多類。聚類演算法可以分析資料之間的聯絡，一般分為一步，是無監督學習。常見的分類演算法：knn、邏輯回歸、支援向量機、樸素貝葉斯、決策樹、隨機森林、常見的聚類演算法：k均值（k-means）、fcm(模糊c均值聚類)、均值漂移聚類、dbscan、speak、mediods、canopy

* 邏輯回歸是一種分類演算法，而不是回歸演算法。分類和回歸的區別如下：分類的輸出資料型別為離散型資料，回歸輸出為連續性資料；分類的目的是尋找決策邊界，回歸的目的是找到最優擬合；分類的評價方法一般為精度、混淆矩陣，回歸的評價方法為sum of square errors(sse)或擬合優度；分類是一種定性**，回歸是一種定量**。判斷分類和回歸的主要方法是觀察輸出型別為離散型還是連續資料，離散型是分類問題，連續資料是回歸問題。現在回到邏輯回歸，邏輯回歸首先擬合資料，最開始的想法是對資料進行線性擬合，但是線性擬合很容易受到離群值（異常值）的影響，因此選擇sigmod函式作為邏輯回歸的回歸函式，sigmod函式的表示式和影象如下：

sigmod函式可以有效解決離群值的干擾問題。因為sigmod函式具有很強的魯棒性，也就是robust。接著要選定閾值，閾值要具體情況具體分析，不是一上來就是將閾值規定為0.5，有時候閾值規定0.5確實不錯，但是在很多情況下，閾值應該偏小或者偏大，比如癌症的**問題，為了盡量避免小概率事件的發生，盡量選擇較小的閾值。我們在上面已經知道用sigmod函式作為回歸函式，接著就是要尋找一組w，使得函式正確的概率最大，也叫做最大似然估計。求解函式最優的函式我們通過數學推導得到乙個叫做交叉熵損失函式，這個函式也就是邏輯回歸的損失函式。求解損失函式的方法還是使用梯度下降法。

總結：邏輯回歸----sigmod函式----選定閾值----最大似然估計----交叉熵損失函式----梯度下降法

knn演算法的核心思想：確定乙個臨近度的度量，相似性越高，相異性越低的資料樣本，可以認為是同一類資料類別。

knn的演算法步驟：

機器學習連續域分類機器學習分類和聚類

機器學習之多元分類（機器學習基石）

文字分類機器學習方法

文字分類機器學習方法

機器學習 連續域分類 機器學習 分類和聚類

機器學習之多元分類（機器學習基石）

文字分類 機器學習方法

文字分類 機器學習方法

相關推薦

機器學習連續域分類機器學習分類和聚類

文字分類機器學習方法

文字分類機器學習方法