西瓜書機器學習筆記 一

2021-10-09 11:34:56 字數 1484 閱讀 3427

記錄學習機器學習的過程,方便自己以後查閱;

機器學習是一門致力研究如何通過計算的手段,利用經驗來改善系統自身的效能的學科;在計算機系統中,「」經驗通常以「資料」形式存在,因此,機器學習所研究的主要內容是關於在計算機上從資料中產生「模型」的演算法,即「學習演算法」(learning algorithm).通過經驗資料可以基於資料產生模型.在面對新的資料時,可以提供相應的判斷.
nfl定理有乙個重要的前提,所有「問題」出現的機會相同、或所有問題同等重要;但是實際情況並不是這樣的,很多時候,我們只關注自己正在試**決的問題(例如某個具體應用任務),希望為它找乙個解決方案,至於這個方案在別的問題、甚至相似的問題上是否為好方案,我們並不關心.

二分類問題,可以分為真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四種情形.分類結果可以用如下混淆矩陣表示

查準率p和查全率r分別定義為:

查準率和查全率是一對矛盾的度量,一般來說,查準率高時,查全率往往偏低;而查全率高時,查準率往往偏低.通常只有在一些簡單任務中才可能使查全率和查準率都很高.

在很多情形下,我們可根據機器學習的**結果對樣例進行排序,排在前面的是學習器認為「最可能」是正例的樣本,排在最後的則是學習器認為「最不可能」是正例的樣本,按此順序逐個把樣本作為正例進行**,則每次可以計算出當前的查全率、查準率.以查準率為縱軸、查全率為橫軸作圖,就是p-r曲線.

p-r圖直觀的顯示出學習器在樣本總體上的查全率、查準率.在進行比較時,若乙個學習器的p-r曲線被另乙個學習器的曲線完全包住,則可斷言後者的效能優於前者.平衡點是在查全率=查準率時的取值.用來度量效能,但是更常用的是f1度量.

f1度量:

在一些對查全率和查準率有不同需求的情況下,會用引數取表達不同的偏好:

引數大於1時,查全率更有影響,小於1時查準率更有影響.

西瓜書 機器學習《一》

泛化能力 學習的模型適應新樣本的能力。奧卡姆剃刀原則 自然科學研究中常用的原則。即 若有多個假設和觀測一致,那麼就選擇最簡單的假設。連線主義 黑箱模型,例如 神經網路,不可解釋性,引數手工等調整 符號主義 決策理論的學習技術,例如決策樹學習 以資訊理論為基礎,以資訊熵的最小化為目標。統計學習 svm...

西瓜書機器學習複習 02章 評選

02 評選 1 查準率,查全率 不要記西瓜書上的tp,fp,用個例子分析,記住。理解各自含義 查準率p precision 在所有 為真中,真正為真的所佔比例 本題,在所有 為1中的樣本中,真實為1的所佔比重 查全率 r recall 在所有真實為1的樣本中,為1所佔比重。再比如 查準率 tp tp...

西瓜書 機器學習(周志華)學習問題記錄

西瓜書的鼎鼎大名早有耳聞,於是毫無疑問買來入門。寫此文章的時候剛要做完第二章的練習題。在看的時候有一些感慨 需要一定的數理基礎,尤其是概率論的內容。但是如果沒學過也不建議直接去啃概率論,只要把相關的部分看看即可。周老師預設我們能力很強,所以有些地方說得不夠詳細,僅靠此書無法理解,需要自己另行查閱。有...