西瓜書筆記3

2021-09-26 19:30:39 字數 716 閱讀 1158

續上一章的模型和模型評估後，這個線性模型是乙個具體模型。它的優點在於簡單易建，能夠作為非線性非線性模型的基礎。而它的本質就是應用函式進行資料的結果**。

關於線性回歸，是對樣例特徵做線性加權，輸出**結果，盡量使得**結果和真實輸出值之間的均方誤差最小化。這裡涉及到乙個特徵屬性的量化問題，有些屬性可以直接量化為一組數值，有些屬性則可能需要量化為三維資料。資料量化後就可以應用在函式裡，直至真實值和**值之間誤差極小，線性模型就生成了。這個相當於把問題轉化成求誤差最小值的過程。

如果是分類任務，需要單調可微函式將真實值和模型**值相聯絡。這裡提到單位階躍函式和對數機率函式。前者是不連續的，後者可作替代。用線性回歸模型的**結果逼近真實標記的對數機率，這樣的模型稱之為對數機率回歸，實質是分類學習方法。

在二分類問題上，經典的線性判別分析lda，理解起來很通俗，就是同類樣例投影點是可以盡可能接近的，異類則遠離。

至於多分類學習，二分類基礎上推廣一些，當然也有基本策略——ovo、ovr、mvr。方法不同，目的相同。

在實際案例中，很難保證不同類別的訓練集樣例數目相當，數目差別較大，會有一定的困擾，對於這種分類不平衡問題，解決問題的中心思想是「再縮放」，說著簡單操作不易。

西瓜書閱讀筆記1

根據已有的知識經驗，形成模型。並根據模型來感知未知的新事物的過程。身高體重膚色18070黃 17562 白18580黑樣本上面中，每一行就是乙個樣本。乙個樣本包含了一種事物的完整屬性，這些屬性不重複。資料集所有的樣本的總和，稱為資料集。特徵例如，身高就是一種特徵，膚色也是一種特徵。也可以...

西瓜書AdaBoost演算法筆記

adaboost 演算法有多種推導方式，比較容易理解的是基於加性模型 additive model 即基學習器的線性組合即每乙個個體學習器會有乙個用於累加的權值,該權值是根據個體學習器的準確性來確定的,通過最小化個體學習器的加權損失得來後面會推導演算法流程的推導過程 1 指數損失函式的可行...

機器學習西瓜書筆記

概念致力於通過計算的手段，利用經驗來改善系統自身的效能。其中，經驗以資料的形式存在。基本術語資料集記錄的集合。示例樣本每條記錄，關於乙個事件或物件的描述，反應事件或物件在某方面的表現或性質的事項。屬性特徵一條記錄乙個樣本由多個屬性特徵組成。屬性值屬性或特徵的值。示例對應於乙個座標...