ML chapter3 線性模型

2021-08-03 14:50:58 字數 1371 閱讀 2642

基本形式f(

x)=ω

1x1+

ω2x2

+...

+ωdx

d+b

寫成向量模式: f(

x)=ω

tx+b

線性回歸

均方誤差最小化,可以求出解析解。在引入多變數時,特徵矩陣x往往不是滿秩矩陣,這時可以有多組引數解,選擇那個解作為輸出,有學習演算法的歸納偏好決定,常見方法時引入正則項。

衍生物1:對數線性回歸 ln

(y)=

ωtx+

by=e

ωt+b

衍生物2:對數機率回歸 ln

(y1−

y)=ω

tx+b

y=11

+e−(

ωtx+

b)優點:

1.直接對分類可能性進行建模,無需假設資料分布??????

2. 近似概率分布,任意階可導,方便求解。

解法:用極大似然法求解 l(

w,b)

=∑i=

1mln

p(yi

|xi;

ω,b)

其中: p(

yi|x

i;ω,

b)=p

(yi|

xi)y

ip((

1−yi

)|xi

)1−y

i 用梯度下降求解可得 βt

+1=β

t+α×

∑i=1

m(yi

−p(y

i|xi

))xi

線性判別分析(lda)

lda的思想:給定訓練樣例,設法將樣例投影到一條直線上,使得同類投影點盡量接近,異類投影點盡可能遠離。

多分類學習

採用一些基本策略,利用二分類學習器來解決多分類問題。經典策略:一對一,一對其餘,多對多。

多對多中常用計數:糾錯輸出碼,

編碼:對n個類別做m次劃分,每次劃分一部分類別為正,其餘為負,產生m個訓練集,訓練m個分類器,

解碼:對測試樣本進行**,將**結果組成乙個編碼,與各類別對編碼計算距離,距離最小的類別作為最終**結果。

類別不均衡問題

線性分類器y=

ωtx+

b 對新樣本進行分類時,通過

y 值與乙個閾值進行對比,通常為0.5,這就意味著決策規則為: y1

−y>1,

則**為

正例類別不平衡學習的乙個基本策略:再縮放-1欠取樣2過取樣

1. 欠取樣,easyensemble利用繼承學習機制,將反例劃分為若干個集合共不同學習器使用,

2. 過取樣,smote通過對訓練集裡對正例進行插值產生額外的正例。

ML chapter2模型選擇與評估

經驗誤差 學習器在訓練集上的誤差稱為經驗誤差 2.過擬合 學習器的經驗誤差降低,同時泛化效能也跟著下降。評估方法 劃分訓練集和測試集 1.留出法 資料劃分成互斥的兩組,並盡可能保證資料分布的一致性,避免因為劃分過程引入的偏差而對結果產生影響。同時,單次使用留出法得到的估計結果往往不夠穩定,一般採用若...

線性回歸模型 線性回歸模型

回歸的思想和分類有所不一樣,分類輸出的結果為離散的值,回歸輸出的是乙個連續型的值。線性回歸的思想就是試圖找到乙個多元的線性函式 當輸入一組特徵 也就是變數x 的時候,模型輸出乙個 值y h x 我們要求這個 值盡可能的準確,那麼怎麼樣才能做到盡可能準確呢?其中 表示實際值,表示 值 其中 表示實際值...

線性特徵與非線性特徵 線性模型與非線性模型

這是個見仁見智的問題,也就是說,它似乎沒有乙個確定的答案,因而我們不糾結於到底把這個模型稱作 線性model or 非線性model 從這麼僵化的論戰裡跳脫出來,好好掰扯一下這個問題 若我們的樣本是線性可分的,那麼我們直接使用線性model就可以解決分類問題,如lr。下圖是lr的決策邊界示意圖 最後...