西瓜書筆記3

2021-09-26 19:30:39 字數 716 閱讀 1158

續上一章的模型和模型評估後,這個線性模型是乙個具體模型。它的優點在於簡單易建,能夠作為非線性非線性模型的基礎。而它的本質就是應用函式進行資料的結果**。

關於線性回歸,是對樣例特徵做線性加權,輸出**結果,盡量使得**結果和真實輸出值之間的均方誤差最小化。這裡涉及到乙個特徵屬性的量化問題,有些屬性可以直接量化為一組數值,有些屬性則可能需要量化為三維資料。資料量化後就可以應用在函式裡,直至真實值和**值之間誤差極小,線性模型就生成了。這個相當於把問題轉化成求誤差最小值的過程。

如果是分類任務,需要單調可微函式將真實值和模型**值相聯絡。這裡提到單位階躍函式和對數機率函式。前者是不連續的,後者可作替代。用線性回歸模型的**結果逼近真實標記的對數機率,這樣的模型稱之為對數機率回歸,實質是分類學習方法。

在二分類問題上,經典的線性判別分析lda,理解起來很通俗,就是同類樣例投影點是可以盡可能接近的,異類則遠離。

至於多分類學習,二分類基礎上推廣一些,當然也有基本策略——ovo、ovr、mvr。方法不同,目的相同。

在實際案例中,很難保證不同類別的訓練集樣例數目相當,數目差別較大,會有一定的困擾,對於這種分類不平衡問題,解決問題的中心思想是「再縮放」,說著簡單操作不易。

西瓜書閱讀筆記1

根據已有的知識經驗,形成模型。並根據模型來感知未知的新事物的過程。身高體重 膚色18070黃 17562 白18580黑 樣本 上面 中,每一行就是乙個樣本。乙個樣本包含了一種事物的完整屬性,這些屬性不重複。資料集 所有的樣本的總和,稱為資料集。特徵 例如,身高就是一種特徵,膚色也是一種特徵。也可以...

西瓜書AdaBoost演算法筆記

adaboost 演算法有多種推導方式,比較容易理解的是基於 加性模 型 additive model 即基學習器的線性組合 即每乙個個體學習器會有乙個用於累加的權值,該權值是根據個體學習器的準確性來確定的,通過最小化個體學習器的加權損失得來 後面會推導 演算法流程的推導過程 1 指數損失函式的可行...

機器學習西瓜書筆記

概念 致力於通過計算的手段,利用經驗來改善系統自身的效能。其中,經驗以資料的形式存在。基本術語 資料集 記錄的集合。示例 樣本 每條記錄,關於乙個事件或物件的描述,反應事件或物件在某方面的表現或性質的事項。屬性 特徵 一條記錄 乙個樣本由多個屬性 特徵組成。屬性值 屬性或特徵的值。示例對應於乙個座標...