西瓜書讀書筆記(三) 線性模型

2021-10-16 08:55:32 字數 2796 閱讀 6549

全部筆記的彙總貼:《機器學習》西瓜書-讀書筆記彙總貼

線性模型(linear model)試圖學得乙個通過屬性的線性組合來進行**的函式,我們一般用向量的形式來表示,f(x

)=wt

x+

bf(x)=w^tx+b

f(x)=w

tx+b

因為w

ww直觀地表達了各屬性在**中地重要性,因此線性模型有很好地可解釋性。

樣本可能由多個屬性描述,此時我們試圖學得f(x

i)=w

txi+

b,使得

f(xi

)≈yi

f(xi​)

=wtx

i​+b

,使得f

(xi​

)≈yi

​這稱為「多元線性回歸」。

假設我們認為示例所對應的輸 出標記是在指數尺度上 變化,那就可將輸出標記的對數作為線性模型逼近的目 標,即ln⁡y

=wtx

+b

\ln y=w^tx+b

lny=wtx

+b這就是 「 對數線性回歸」 (log-linear regression),它實際上是在試圖讓ewt

x+be^

ewtx+b

逼近y yy。

更一般地,可以考慮單調可微函式g(⋅

)g(\cdot)

g(⋅)

,令y =g

−1(w

tx+b

)y=g^(w^tx+b)

y=g−1(

wtx+

b)這樣得到的模型稱為「廣義線性模型」(generalized linear model),其中函式g(⋅

)g(\cdot)

g(⋅)

稱為「聯絡函式」(link function)。顯然,對數線性回歸是廣義線性模型在g(⋅

)=ln⁡

(⋅

)g(\cdot) = \ln(\cdot)

g(⋅)=ln

(⋅)時的特例.

單位階躍函式不連續,因此不能直接找到這樣的g(⋅

)g(\cdot)

g(⋅)

。我們就找到能在一定程度上近似單位階躍函式的 「 替代函式」 (surrogate function),並希望它單調可微.對數機率函式(logistic function)正是這樣乙個常用的替代函式:y=1

1+e−

z=11

+e−(

wtx+

b)

y=\frac1}=\frac1}

y=1+e−

z1​=

1+e−

(wtx

+b)1​ln

y1−y

=wtx

+b

ln\frac=w^tx+b

ln1−yy

​=wt

x+b我們可以用極大似然法來估計w

ww和bbb

線性判別分析(linear discriminant analysis,簡稱lda)是一種經典的線性學習方法。類似於給資料降維,並且是類間大,類內小

lda的思想非常樸素:給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、 異類樣例的投影點盡可能遠離;在對新樣 本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新 樣本的類別。

可以檢視這裡的這篇文章:白板推導系列筆記(四)-線性分類

多分類學習的基本思路是「拆解法」即將多分類任務拆為若干個二分類任務求解。

可以看看常用的mvm技術:「糾錯輸出碼」(ecoc)。

類別不平衡(class-imbalance)就是指分類任務中不同類別的訓練樣例數目差別很大的情況。例如有998個反例,但正例只有2個,那麼學 習方法只需返回乙個永遠將新樣本**為反例的學習器,就能達到99.8%的精度;然而這樣的學習器往往沒有價值,因為它不能**出任何正例。

分類器的決策規則為:若y1−

y>

1\frac y>1

1−yy

​>

1則**為正例。

當訓練集中正、反例的數目不同時,我們令m

+m^+

m+表示正例數目,m

−m^-

m−表示反例數目。則觀測機率是m+m

−\frac

m−m+

​,於我們通常假設訓練集是真實樣本總體的無偏取樣,因此觀測機率就代表了真實機率。於是,只要分類器的**機率高於觀測機率就應判定為正例,即:若y1−

y>m+

m−

\frac y>\frac

1−yy

​>m−

m+​則**為正例。

因為我們的分類器是根據它的決策規則來進行決策的,所以我們需要對其**值進行調整,所以我們要令,y′1

−y′=

y1−y

∗m+m

−\frac =\frac y*\frac

1−y′y′

​=1−

yy​∗

m−m+

​所以我們要進行乙個基本的策略——「再縮放」。

直接對直接對訓練集裡的反類樣例進行 「欠取樣 」 (undersampling),即去除一些反倒使得正、 反例數目接近,然後再進行學習;

對訓練集裡的正類樣例進行 「過取樣」 (oversampling),即增加一些正例使得正、反例數目接近,然後再進行學習;

直接基於原始訓練集進行學習,但在用 訓練好的分類器進行**時,將上式嵌入到其決策過程中,稱為「閾值移動」(threshold-moving)。

「再縮放」 也是 「代價敏感學習」 (cost-sensitive learning)的基礎。

機器學習西瓜書閱讀筆記 (三)線性模型

解決分類問題 線性判別分析 lda 多分類學習 解決正負樣本比例不協調問題 參考文獻 線性模型的思想主要在於試圖通過乙個關於所有特徵的線性組合來學的乙個 函式,如下 通常我們為了利於程式的實現會通過向量的形式出現,如下 w和b學得之後,模型就可以確定 在西瓜書中,主要從三個方面介紹線性模型的應用 解...

西瓜書讀書筆記之模型評估與選擇(三)

希望比較的是泛化技能,實驗評估方法得到的是測試集上的效能 測試集上的效能與測試集本身的選擇有很大關係。大小 包含測試樣例的不同,都會影響測試結果。很多學習演算法有一定隨機性 給測試效能賦值 假定我們用dl d2 d3 和d4 四個資料集對演算法a b c 進行比較.首先,使用留出法或交叉驗證法得到每...

西瓜書讀書筆記(一) 緒論

全部筆記的彙總貼 機器學習 西瓜書 讀書筆記彙總貼 機器學習致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能的學科。資料集 對單個樣本特徵進行描述的記錄集合。每條記錄時關於乙個事件或物件的描述,稱為 示例 或 樣本 反映事件或物件在某方面的表現或性質的事項稱為 屬性 或 特徵 發現這塊兒也...