《機器學習那些事》讀書筆記

2021-06-30 16:14:24 字數 1292 閱讀 8090

1、模型的三要素:

a) 表示(

假設空間

):目前很多書籍對模型的分類都是基於假設空間的

b) 評價(

損失函式

):是乙個評價標準

c) 優化(

優化演算法

):乙個搜尋演算法,能夠在假設空間中找到評價函式得分最高的假設

2、泛化:

訓練集要和測試集分開

3、模型選擇:

根據資料之間的關係和模型的表示(

這裡指的是假設

)來選擇模型;實際在進行模型選擇的時候都是通過評測來實現的。

4、過擬合:

a) 表現:訓練誤差很小,測試誤差很大

b) 解決的方案:對評測函式增加乙個正則項;交叉驗證選擇模型引數

c) 過擬合,方差(variance)

;欠擬合,偏執

(bias)

。過擬合的表現是高方差,欠擬合的表現就是高偏執

5、高維空間

a) 維度越高越難泛化,因為維度越高(

特徵多)

輸入空間越大

b) 可以通過降維來提高效果

6、特徵工程

a) 自動化的特徵選擇:選收集全量的特徵,然後計算每個特徵與分類的資訊增益來選擇特徵

b) 特徵工程是和領域相關的,也是最花時間的部分

7、更多的資料勝過更聰明的演算法

a) 包括更多的樣例和更多的特徵

b) 非常不同的演算法會產生類似的邊界

8、模型整合:

a) 通過重取樣隨機生成若干個不同的訓練集,在每個集合上生成乙個分類器,然後用投票的方式講結果合併。此方法比較有效,原因是在輕度增加偏置的同時極大的降低了方差(

類似於 

boosting 

的思想)

機器學習讀書筆記

第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...

周志華 機器學習 讀書筆記

分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...

《機器學習實戰》讀書筆記

監督學習使用兩種型別的目標變數 之所以稱監督學習,是因為這類演算法必須知道 什麼,即目標變數的分類資訊 在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類 將尋找描述資料統計值的過程稱之為密度估計 是 否要 預測目標 變數的值 是 監督學習 目標變數型別 begin離散型 分類演...