機器學習 連續域分類 機器學習 分類和聚類

2021-10-17 07:20:46 字數 1244 閱讀 3964

## 機器學習-分類和聚類、分類和回歸、邏輯回歸和knn

1、分類:使用已知的資料集(訓練集)得到相應的模型,通過這個模型可以劃分未知資料。分類涉及到的資料集通常是帶有標籤的資料集,分類是有監督學習。一般分為兩步,訓練資料得到模型,通過模型劃分未知資料。2.聚類:直接使用聚類演算法將未知資料分為兩類或者多類。聚類演算法可以分析資料之間的聯絡,一般分為一步,是無監督學習。常見的分類演算法:knn、邏輯回歸、支援向量機、樸素貝葉斯、決策樹、隨機森林、常見的聚類演算法:k均值(k-means)、fcm(模糊c均值聚類)、均值漂移聚類、dbscan、speak、mediods、canopy

* 邏輯回歸是一種分類演算法,而不是回歸演算法。分類和回歸的區別如下:分類的輸出資料型別為離散型資料,回歸輸出為連續性資料;分類的目的是尋找決策邊界,回歸的目的是找到最優擬合;分類的評價方法一般為精度、混淆矩陣,回歸的評價方法為sum of square errors(sse)或擬合優度;分類是一種定性**,回歸是一種定量**。 判斷分類和回歸的主要方法是觀察輸出型別為離散型還是連續資料,離散型是分類問題,連續資料是回歸問題。 現在回到邏輯回歸,邏輯回歸首先擬合資料,最開始的想法是對資料進行線性擬合,但是線性擬合很容易受到離群值(異常值)的影響,因此選擇sigmod函式作為邏輯回歸的回歸函式,sigmod函式的表示式和影象如下:

sigmod函式可以有效解決離群值的干擾問題。因為sigmod函式具有很強的魯棒性,也就是robust。接著要選定閾值,閾值要具體情況具體分析,不是一上來就是將閾值規定為0.5,有時候閾值規定0.5確實不錯,但是在很多情況下,閾值應該偏小或者偏大,比如癌症的**問題,為了盡量避免小概率事件的發生,盡量選擇較小的閾值。 我們在上面已經知道用sigmod函式作為回歸函式,接著就是要尋找一組w,使得函式正確的概率最大,也叫做最大似然估計。求解函式最優的函式我們通過數學推導得到乙個叫做交叉熵損失函式,這個函式也就是邏輯回歸的損失函式。求解損失函式的方法還是使用梯度下降法。

總結:邏輯回歸----sigmod函式----選定閾值----最大似然估計----交叉熵損失函式----梯度下降法

knn演算法的核心思想:確定乙個臨近度的度量,相似性越高,相異性越低的資料樣本,可以認為是同一類資料類別。

knn的演算法步驟:

機器學習之多元分類(機器學習基石)

如上圖所示我們要使用一些線性模型來分割這四種不同的圖案,利用以前學過的二元分類我們可以將某乙個種類分別從整體中分離出來。比如將圖通是方塊和不是方塊的做二元分類,是三角形的和不是三角形的進行分類等等,然後我們得到下圖 如上圖所示我們在單獨的分割中可以分別將我們想要的目標圖案分割出來,但是我們將這些圖示...

文字分類 機器學習方法

不好意思最近事情有點多下次在完善一下 匯入常用包 import random import jieba import pandas as pd from sklearn.model selection import train test split from sklearn.feature extr...

文字分類 機器學習方法

文字分類實現步驟 定義階段 定義資料以及分類體系,具體分為哪些類別,需要哪些資料 資料預處理 對文件做分詞 去停用詞等準備工作 資料提取特徵 對文件矩陣進行降維 提取訓練集中最有用的特徵 模型訓練階段 選擇具體的分類模型以及演算法,訓練出文字分類器 評測階段 在測試集上測試並評價分類器的效能 應用階...