機器學習Day 03

給定乙個由d個

屬性描述

的示例x

=(x1

,x2,

...,

xd) ，其中xi

是x在第

i個屬性

上的取值

，線性模型（linear model）試圖學得乙個通過屬性的現實組合來進行**的函式，即 f(

x)=w

1x1+

w2x2

+...

+wdx

d+b

一般用向量形式寫成 f(

x)=w

tx+b

其中w=

(w1,

w2,.

..,w

d)。w

和b學得

之後，模

型就得以

確定。由於

w 線性回歸（linear regression）試圖學得乙個線性模型以盡可能準確地**實值輸出標記。

對離散屬性，若屬性值間存在序（order）關係，可通過連續化將其轉化為連續值；若屬性值間不存在序關係，假定有

k個屬性值，則通常轉化為

k 維向量，但會不恰當地引入序關係，對後續處理造成誤導。

線性回歸試圖學得 f(

xi)=

wtxi

+b，使

得f(x

i)≃y

i顯然關鍵在於如何衡量f(

x)與y

之間的差

距。均方差是回歸任務中最常用的效能度量，因此我們可以試圖讓均方誤差（square loss）最小化，即 (w

∗,b∗

)=argmax(w

,b)∑

i=1m

(f(x

i)−y

i)2=

argmax(w

,b)∑

i=1m

(yi−

wx1−

b)2

求解w和b

使e(w

,b)=

∑mi=

1(yi

−wx1

−b)2

最小化的過程，稱為線性回歸模型的最小二乘引數估計（parameter estimation)。將e

分別對w

和b求導

，解 ∂e

(w,b

)∂w=

2（w∑

i=1m

x2i−

∑i=1

m(yi

−b)x

i）=0

∂e(w,b)

∂b=2

(mb−

∑i=1

m(yi

−wxi

))=0

得 w=

∑mi=

1yi(

xi−x

¯)∑m

i=1x

2i−1

m(∑m

i=1x

i)2,

x¯=1

m∑i=

1mxi

b=1m∑i=

1m(y

i−wx

i)。

這裡e(

w,b)

是關於w 和

b的凸函式，當關於

w 和

b的導數均為零時，得到

w 和

b的最優解。

對於區間[a

,b] 上定義的函式

f ，若它對區間中任意兩點x1

,x1均有

f(x1

+x22

)≤f(

x1)+

f(x2

)2，則稱

f 為區間[a

,b]的凸函式。對實數集上的函式，可以通過求二階導數來判斷：若二階導數在區間上非負，則稱凸函式；若二階導數在區間上恆大於零，則稱嚴格凸函式（與同濟大學出版的高等數學教材中凹凸函式定義正好相反）。

當樣本由

d 個屬性描述，此時試圖學得 f(

xi)=

wtxi

+b，使

得f(x

i)≃y

i稱為多元線性回歸（multivariate linear regression）。

類似的，同樣可以利用最小二乘法來對w和

b 進行估計。我們把w和

b 吸入向量形式wˆ

=(w;

b)，把資料集

d 表示為乙個m×

(d+1

)大小的矩陣

x ，即 x=

⎡⎣⎢⎢

⎢⎢⎢x

11x21⋮

xm1x

12x22⋮

xm2⋯

⋯⋱⋯x

1dx2

d⋮xm

d111

⎤⎦⎥⎥

⎥⎥⎥=

⎡⎣⎢⎢

⎢⎢⎢x

t1xt

2⋮xt

m11⋮

1⎤⎦⎥

⎥⎥⎥⎥

機器學習day03

資訊理論基礎熵聯合熵條件熵資訊增益基尼不純度資訊熵資訊熵是度量樣本集合純度常用的一種指標。定義為聯合熵聯合熵就是度量乙個聯合分布的隨機系統的不確定度條件熵在得知某一確定資訊的基礎上獲取另外乙個資訊時所獲得的資訊量。資訊增益資訊增益代表使用屬性a帶來的純度提公升，資訊增益越大，...

前端學習day03

今天學了個新東西，是根據螢幕寬度大小修改網頁顯示的內容。大概查了下用法，media 可以針對不同的螢幕尺寸設定不同的樣式，特別是如果你需要設定設計響應式的頁面，media 是非常有用的。當你重置瀏覽器大小的過程中，頁面也會根據瀏覽器的寬度和高度重新渲染頁面。這個有時有效，有時會失效，具體是看電腦解析...

學習筆記day03

邏輯運算子異或符號兩邊結果相同，結果為false 符號兩邊結果不同，結果為true 面試題1，雙與也叫短路運算，因為左側如果為假的話直接不判斷右側結果與 c無論左邊結果運算是什麼，右邊都參與運算。2，雙或和或運算結果一樣，但是運算過程有點小區別。無論左邊運算結果是什麼，右邊都參與運算當...

機器學習Day 03

機器學習day03

前端學習day03

學習筆記day03

相關推薦