西瓜書讀書筆記（三）線性模型

全部筆記的彙總貼：《機器學習》西瓜書-讀書筆記彙總貼

線性模型（linear model）試圖學得乙個通過屬性的線性組合來進行**的函式，我們一般用向量的形式來表示，f(x

)=wt

bf(x)=w^tx+b

f(x)=w

tx+b

因為w

ww直觀地表達了各屬性在**中地重要性，因此線性模型有很好地可解釋性。

樣本可能由多個屬性描述，此時我們試圖學得f(x

i)=w

txi+

b，使得

f(xi

)≈yi

f(xi)

=wtx

i+b

，使得f

(xi

)≈yi

這稱為「多元線性回歸」。

假設我們認為示例所對應的輸出標記是在指數尺度上變化，那就可將輸出標記的對數作為線性模型逼近的目標，即ln⁡y

=wtx

\ln y=w^tx+b

lny=wtx

+b這就是「對數線性回歸」 (log-linear regression），它實際上是在試圖讓ewt

x+be^

ewtx+b

逼近y yy。

更一般地，可以考慮單調可微函式g(⋅

)g(\cdot)

g(⋅)

，令y =g

−1(w

tx+b

)y=g^(w^tx+b)

y=g−1(

wtx+

b)這樣得到的模型稱為「廣義線性模型」（generalized linear model），其中函式g(⋅

)g(\cdot)

g(⋅)

稱為「聯絡函式」（link function）。顯然，對數線性回歸是廣義線性模型在g(⋅

)=ln⁡

(⋅

)g(\cdot) = \ln(\cdot)

g(⋅)=ln

(⋅)時的特例．

單位階躍函式不連續，因此不能直接找到這樣的g(⋅

)g(\cdot)

g(⋅)

。我們就找到能在一定程度上近似單位階躍函式的「替代函式」（surrogate function），並希望它單調可微．對數機率函式（logistic function）正是這樣乙個常用的替代函式：y=1

1+e−

z=11

+e−(

wtx+

y=\frac1}=\frac1}

y=1+e−

z1=

1+e−

(wtx

+b)1ln

y1−y

=wtx

ln\frac=w^tx+b

ln1−yy

=wt

x+b我們可以用極大似然法來估計w

ww和bbb

線性判別分析（linear discriminant analysis，簡稱lda）是一種經典的線性學習方法。類似於給資料降維，並且是類間大，類內小。

lda的思想非常樸素：給定訓練樣例集，設法將樣例投影到一條直線上，使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離；在對新樣本進行分類時，將其投影到同樣的這條直線上，再根據投影點的位置來確定新樣本的類別。

可以檢視這裡的這篇文章：白板推導系列筆記（四）-線性分類

多分類學習的基本思路是「拆解法」即將多分類任務拆為若干個二分類任務求解。

可以看看常用的mvm技術：「糾錯輸出碼」（ecoc）。

類別不平衡（class-imbalance）就是指分類任務中不同類別的訓練樣例數目差別很大的情況。例如有998個反例，但正例只有2個，那麼學習方法只需返回乙個永遠將新樣本**為反例的學習器，就能達到99.8%的精度；然而這樣的學習器往往沒有價值，因為它不能**出任何正例。

分類器的決策規則為：若y1−

1\frac y>1

1−yy

1則**為正例。

當訓練集中正、反例的數目不同時，我們令m

+m^+

m+表示正例數目，m

−m^-

m−表示反例數目。則觀測機率是m+m

−\frac

m−m+

，於我們通常假設訓練集是真實樣本總體的無偏取樣，因此觀測機率就代表了真實機率。於是，只要分類器的**機率高於觀測機率就應判定為正例，即：若y1−

y>m+

m−

\frac y>\frac

1−yy

>m−

m+則**為正例。

因為我們的分類器是根據它的決策規則來進行決策的，所以我們需要對其**值進行調整，所以我們要令，y′1

−y′=

y1−y

∗m+m

−\frac =\frac y*\frac

1−y′y′

=1−

yy∗

m−m+

所以我們要進行乙個基本的策略——「再縮放」。

直接對直接對訓練集裡的反類樣例進行「欠取樣」（undersampling），即去除一些反倒使得正、反例數目接近，然後再進行學習；

對訓練集裡的正類樣例進行「過取樣」（oversampling），即增加一些正例使得正、反例數目接近，然後再進行學習；

直接基於原始訓練集進行學習，但在用訓練好的分類器進行**時，將上式嵌入到其決策過程中，稱為「閾值移動」（threshold-moving）。

「再縮放」也是「代價敏感學習」（cost-sensitive learning）的基礎。

西瓜書讀書筆記（三）線性模型

機器學習西瓜書閱讀筆記（三）線性模型

西瓜書讀書筆記之模型評估與選擇（三）

西瓜書讀書筆記（一）緒論

西瓜書讀書筆記（三） 線性模型

機器學習西瓜書閱讀筆記 （三）線性模型

西瓜書讀書筆記之模型評估與選擇（三）

西瓜書讀書筆記（一） 緒論

相關推薦

西瓜書讀書筆記（三）線性模型

機器學習西瓜書閱讀筆記（三）線性模型

西瓜書讀書筆記（一）緒論