機器學習Day 03

2021-08-14 07:52:02 字數 2482 閱讀 4958

給定乙個由d個

屬性描述

的示例x

=(x1

,x2,

...,

xd) ,其中xi

是x在第

i個屬性

上的取值

,線性模型(linear model)試圖學得乙個通過屬性的現實組合來進行**的函式,即 f(

x)=w

1x1+

w2x2

+...

+wdx

d+b

一般用向量形式寫成 f(

x)=w

tx+b

其中w=

(w1,

w2,.

..,w

d)。w

和b學得

之後,模

型就得以

確定。 由於

w 線性回歸(linear regression)試圖學得乙個線性模型以盡可能準確地**實值輸出標記。

對離散屬性,若屬性值間存在序(order)關係,可通過連續化將其轉化為連續值;若屬性值間不存在序關係,假定有

k個屬性值,則通常轉化為

k 維向量,但會不恰當地引入序關係,對後續處理造成誤導。

線性回歸試圖學得 f(

xi)=

wtxi

+b,使

得f(x

i)≃y

i顯然關鍵在於如何衡量f(

x)與y

之間的差

距。均方差是回歸任務中最常用的效能度量,因此我們可以試圖讓均方誤差(square loss)最小化,即 (w

∗,b∗

)=argmax(w

,b)∑

i=1m

(f(x

i)−y

i)2=

argmax(w

,b)∑

i=1m

(yi−

wx1−

b)2

求解w和b

使e(w

,b)=

∑mi=

1(yi

−wx1

−b)2

最小化的過程,稱為線性回歸模型的最小二乘引數估計(parameter estimation)。將e

分別對w

和b求導

,解 ∂e

(w,b

)∂w=

2(w∑

i=1m

x2i−

∑i=1

m(yi

−b)x

i)=0

∂e(w,b)

∂b=2

(mb−

∑i=1

m(yi

−wxi

))=0

得 w=

∑mi=

1yi(

xi−x

¯)∑m

i=1x

2i−1

m(∑m

i=1x

i)2,

x¯=1

m∑i=

1mxi

b=1m∑i=

1m(y

i−wx

i)。

這裡e(

w,b)

是關於w 和

b的凸函式,當關於

w 和

b的導數均為零時,得到

w 和

b的最優解。

對於區間[a

,b] 上定義的函式

f ,若它對區間中任意兩點x1

,x1均有

f(x1

+x22

)≤f(

x1)+

f(x2

)2,則稱

f 為區間[a

,b]的凸函式。對實數集上的函式,可以通過求二階導數來判斷:若二階導數在區間上非負,則稱凸函式;若二階導數在區間上恆大於零,則稱嚴格凸函式(與同濟大學出版的高等數學教材中凹凸函式定義正好相反)。

當樣本由

d 個屬性描述,此時試圖學得 f(

xi)=

wtxi

+b,使

得f(x

i)≃y

i稱為多元線性回歸(multivariate linear regression)。

類似的,同樣可以利用最小二乘法來對w和

b 進行估計。我們把w和

b 吸入向量形式wˆ

=(w;

b), 把資料集

d 表示為乙個m×

(d+1

)大小的矩陣

x ,即 x=

⎡⎣⎢⎢

⎢⎢⎢x

11x21⋮

xm1x

12x22⋮

xm2⋯

⋯⋱⋯x

1dx2

d⋮xm

d111

⎤⎦⎥⎥

⎥⎥⎥=

⎡⎣⎢⎢

⎢⎢⎢x

t1xt

2⋮xt

m11⋮

1⎤⎦⎥

⎥⎥⎥⎥

機器學習day03

資訊理論基礎 熵 聯合熵 條件熵 資訊增益 基尼不純度 資訊熵 資訊熵是度量樣本集合純度常用的一種指標。定義為 聯合熵 聯合熵就是度量乙個聯合分布的隨機系統的不確定度 條件熵 在得知某一確定資訊的基礎上獲取另外乙個資訊時所獲得的資訊量。資訊增益 資訊增益代表使用屬性a帶來的純度提公升,資訊增益越大,...

前端學習day03

今天學了個新東西,是根據螢幕寬度大小修改網頁顯示的內容。大概查了下用法,media 可以針對不同的螢幕尺寸設定不同的樣式,特別是如果你需要設定設計響應式的頁面,media 是非常有用的。當你重置瀏覽器大小的過程中,頁面也會根據瀏覽器的寬度和高度重新渲染頁面。這個有時有效,有時會失效,具體是看電腦解析...

學習筆記day03

邏輯運算子 異或 符號兩邊結果相同,結果為false 符號兩邊結果不同,結果為true 面試題1,雙與 也叫短路運算,因為左側如果為假的話直接不判斷右側結果 與 c無論左邊結果運算是什麼,右邊都參與運算。2,雙或 和或 運算結果一樣,但是運算過程有點小區別。無論左邊運算結果是什麼,右邊都參與運算 當...