《機器學習實戰》之Logistic回歸

2021-09-24 22:29:15 字數 1086 閱讀 5417

本章內容

我們介紹幾個最優化演算法,並利用它們訓練出乙個非線性函式用於分類。

回歸:假設我們有一些資料點,我們用一條直線對這些點進行擬合,這個擬合過程就稱作回歸。

利用logistic回歸進行分類的主要思想是:根據現有資料對分類邊界線建立回歸公式,以此進行分類

logistic回歸的一般過程

(1) 收集資料:採用任意方法收集資料。

(2) 準備資料:由於需要進行距離計算,因此要求資料型別為數值型。另外,結構化資料格式則最佳。

(3) 分析資料:採用任意方法對資料進行分析

(4) 訓練演算法:大部分時間將用於訓練,訓練的目的是為了找到最佳的分類回歸係數

(5) 測試演算法:一旦訓練步驟完成,分類將會很快

(6) 使用演算法:首先,我們需要輸入一些資料,並將其轉換成對應的結構化數值;接著,基於訓練好的回歸係數就可以對這些數值進行簡單的回歸計算,判定它們屬於哪個類別;在這之後,我們就可以在輸出的類別上做一些其他分析工作

logistic回歸

優點:計算代價不高,易於理解和實現

缺點:容易欠擬合,分類精度可能不高

適用資料型別:數值型和標稱型資料

我們想要的函式是,能接受所有的輸入然後**出類別。sigmoid函式具有跳躍性質

為了實現logistic回歸分類器,我們可以在每個特徵上都乘以乙個回歸係數,然後把所有的結果值相加,將這個總和代入sigmoid函式中,進而得到乙個範圍在0-1之間的數值。

sigmoid函式的輸入記為z,由下面公式得出:

如果採用向量的寫法,上述公式可以寫成

全部加起來即得到z值。其中的向量x是分類器的輸入資料,向量w也就是我們要找到的最佳引數

(係數),從而使得分類器盡可能地精確。為了尋找該最佳引數,需要用到最優化理論的一些知識。

下面首先介紹梯度上公升的最優化方法,我們將學習到如何使用該方法求得資料集的最佳

引數。接下來,展示如何繪製梯度上公升法產生的決策邊界圖,該圖能將梯度上公升法的分類效

果視覺化地呈現出來。最後我們將學習隨機梯度上公升演算法,以及如何對其進行修改以獲得更

好的結果

機器學習實戰 Logistic回歸

11 e z 1 1 e zz w 0x0 w1x1 w2x 2 wn xxz w 0x0 w1x1 w2x 2 wn xx z wt x z w tx 在每個特徵上都乘以乙個回歸係數,然後把所有結果值相加,將這個總和代入sigmoid函式中,進而得到乙個範圍在0 1直接的數值。1類 大於0.5 0...

機器學習 機器學習實戰 Logistic回歸

我們在每個特徵上都乘以乙個回歸係數,然後把所有的結果值相加,將這個總和代入sigmoid函式中,進而得到乙個範圍在0 1之間的數值。任何大於0.5的資料被分入1類,小於0.5的被歸入0類。所以此種回歸也可以被看成是一種概率估計。收集資料 任意 準備資料 由於需要進行距離計算,因此要求資料型別為數值型...

機器學習實戰札記 Logistic回歸

這段時間裡,我一直在嘗試將open nsfw加入到手機,給手機瀏覽器增加色情檢測功能,這個分階段進行,在前面的幾篇文章中,都談到了這方面的嘗試 我的第乙個caffe c 程式 我的第乙個caffe android程式 利用人工智慧檢測色情 然而,當我將open nsfw移植到手機上執行時 原始碼已上...