《機器學習》閱讀心得三線性模型

給定乙個由d個屬性描述的示例x=

(x1;

x2;.

..;x

d)，其中xi

是x在第i個屬性上的取值，線性模型試圖學習到乙個通過屬性的線性組合來進行**的函式，即f(

x)=ω

1x1+

ω2x2

+...

+ωdx

d+b

用向量形式可寫為f(

x)=ω

tx+b

3.1 線性回歸

假定屬性只有乙個，那麼線性回歸的任務是學得f(

xi)=

ωxi+

b 為了確定

ω 和b，我們的目標是使得均方誤差最小化。均方誤差對應了常用的「歐氏距離」,在幾何上，這種方式就是找到一條直線，使得所有樣本到這條直線的歐氏距離之和最小。在公式上，即求解ω 和

b 使得e(

ω,b)

=∑mi

=1(y

i−ωx

i−b)

2取最小值。

更為一般的，考慮回歸到y的函式g(

y)，那麼線性回顧模型可以推廣為廣義線性模型，即g(

y)=ω

tx+b

變換可得y=

g−1(

ωtx+

b)其中函式g(·)稱為聯絡函式。

3.2 對數機率回歸

當需要對分類任務進行線性回歸時，我們可以從廣義線性模型出發，找到乙個可微函式將分類任務的真實標記

y 與線性回歸模型的**值聯絡起來。

針對二分類任務，考慮採用近似單調階躍函式的對數機率函式y=

11+e

−z將上式代入廣義線性模型(z為上式的y)，經變換可以得到lny

1−y=

ωtx+

b 將y

視為樣本x作為正例的可能性，則1-y是其反例可能性。兩者比值稱為「機率」,反映了x作為正例的相對可能性。因此上式是用線性回歸模型的**結果去逼近真實標記的對數機率，這個模型被稱為對數機率回歸。

3.3 線性判別分析

線性判別分析（linear disriminant analysis，lda）是一種經典的線性學習方法，在二分類問題上因為最早由fisher提出，又稱為「fisher判別分析」。

lda的思想是：給定訓練樣例集，設法將樣例投影到一條直線上，使得同類樣例的投影點盡可能接近，異類樣例的投影點盡可能遠離；對新樣本進行判別時，根據投影點的位置進行判別。

3.4 多分類學習

可利用二分類學習器解決多分類問題。多分類學習的基本思路是「拆解法」，將多分類任務拆分為若干個二分類任務求解。

最經典的拆分策略有三種：「一對一」(one vs. one，簡稱ovo)、「一對其餘」（one vs. rest,簡稱ovr）,」多對多」（many vs. many,簡稱mvm）。

給定資料集d=

,yi∈

。ovo將這 n個類別兩兩配對，產生n(

n−1)

/2個二分類任務，並得到同樣數量的分類器。在測試時，新樣本將會提交給所有的分類器，最終結果可通過投票產生。

ovr則是每次將乙個類的樣例作為正例，而用其他類的所有樣例作為反例來訓練n個分類器。在測試時若僅有乙個分類器**為正類，則對應的分類標記作為最終分類結果。若有多個分類器**為正類，則計算各分類器的**置信度，選擇置信度最大的標記作為分類結果。

mvm是每次將若干個類作為正類，若干個其他類作為反類。顯然，mvm的正、反類構造必須有特殊的設計，不能隨意選取。

3.5 類別不平衡問題

類別不平衡是指分類任務中不同類別的訓練樣例數量差別很大的情況。當出現類別不平衡時，將會對傳統的分類任務出現困擾。

從線性分類器的角度來理解，當使用y=

ωtx+

b 對新樣本進行分類時，實際上是用

y 值與閾值進行比較。y值實際上表示了正例的可能性，機率y1

−y則表示了正例可能性與反例可能性之比值，分類器判斷為正例的規則為y1

−y>1

在訓練集中，令m+

表示正例數目，m−

表示反例數目，則觀測機率是m+

m−。假定訓練集是真實樣本總體的無偏估計，因此觀測機率就代表了真實機率。所以，只要分類器的**機率高於訓練集的觀測機率應判斷為正例，即y1

−y>m+

m−進行處理後有y1

1−y1

=y1−

y×m−

m+>1

這種方法稱為「再縮放」，是類別不平衡學習中的乙個基本策略。

但是在實際工作中，「訓練集是真實樣本總體的無偏取樣」這個假設往往並不成立。現在技術大概有三種做法：「欠取樣」: 去除一些反例使得正、反例數目接近，再進行學習；「過取樣」：增加一些正例使得正反例數目接近，再進行學習；「閾值移動」：基於原始資料集進行學習，在進行**時，採用「再縮放」方式。

《機器學習》閱讀心得三線性模型

機器學習西瓜書閱讀筆記（三）線性模型

機器學習經典模型（三）線性回歸

機器學習（三）線性回歸

《機器學習》閱讀心得 三 線性模型

機器學習西瓜書閱讀筆記 （三）線性模型

機器學習經典模型（三） 線性回歸

機器學習（三） 線性回歸

相關推薦

《機器學習》閱讀心得三線性模型

機器學習西瓜書閱讀筆記（三）線性模型

機器學習經典模型（三）線性回歸

機器學習（三）線性回歸