筆記整理 西瓜書 第1章 緒論

2021-08-17 05:55:15 字數 1564 閱讀 5060

不知不覺就研一下啦,想了想,作為乙個專碩狗也要開始考慮工作和實習了

因為本渣的專攻方向為機器學習和深度學習,西瓜書和benjor那本藍皮書算得上必備之本。就把兩本書的大致筆記做一下吧。先刷西瓜書,再刷藍皮書,此貼為證!

第一次寫部落格,思緒稍微有點亂,權當自己看看吧

總結:

第一章其實沒什麼難度,就是講了一下術語相關的東西(完全只靠記),但是因為機器學習相關的術語還是很多都還沒固定好,往往同乙個東西有多個同義詞和近義詞,所以看**的時候如果忘了或者區分不了真的會特別特別的痛苦(特別是區分同義詞和近義詞方面),所以認真刷一下還是很有必要的。

重要概念:

機器學習定義:假設用p來評估電腦程式在某項任務t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能的改善,則我們就說關於t和p,該程式對e進行了學習。(這個概念在西瓜書上作者也說了是引用mitchell上,事實上mitchell也寫過一本機器學習的書(上學期的教材),但是嚴重不推薦初學者進行學習,在那本書上將很多概念講得過於抽象,而且20多前的老書,很多概念都已經發生了變化,但是對機器學習的定義個人感覺到目前為止還是無法超越的)

假設:學的模型對應資料的某種潛在的規則。其實一般我們學到的表示是:y=f(x);在機器學習上我們則經常表示為y=h(x)。其實這裡的h和f等價(歷史遺留問題),簡單理解為假設就是我們所學到的函式即可。

樣例(example):擁有標記(label)資訊的例項。標記對應的是標記空間(label space)/輸出空間。與下文的樣本空間對應。

機器學習的分類:大體上可以分類為有監督學習(根據標記可分為分類和回歸),無監督學習(如聚類,此時的每個組稱為乙個簇)。但有的教材還有半監督學習,強化學習等等。

概念學習:要求從訓練資料中學得概念。其實就是學習過程看做在所有假設組成的空間中進行搜尋的過程(具體有很多種演算法)。但是目前流行的基本都是各種黑箱模型,如深度學習(本渣主要研究方向)。

歸納偏好:演算法在學習過程中對某種型別假設的偏好。特別特別的重要,特別是後面的決策樹選擇中,如奧卡姆剃刀原理。在沒有偏好的過程中我們甚至無法對模型進行建模。

nfl(沒有免費的午餐定理):無論演算法a多聰明,演算法b多笨拙,期望效能相同。因此如果拋開特定的問題是不存在絕對好和絕對差的演算法,因此,也不用說學了深度學習,決策樹就沒有用啦之類的,事實上,現在樹形結果的演算法在一般在結構化資料方面往往勝過如今最流行的深度學習演算法。

同義詞(近義詞):

模型/模式:模型代表學到的整體,模式則是指區域性性結果(一條規則)

示例(instance)/樣本(sample)/特徵向量(feature vector):基本指的是同乙個東西,乙個***可以理解為一條資料即可

屬性(attribute)/特徵(feature):同乙個東西,資料表中的一列,事實上在大多數**中經常引入「特徵」一詞,剛開始的時候經常也搞混

屬性空間(attribute space)/樣本空間(sample space)/輸入空間:其實輸入空間這概念在我沒刷西瓜書之前都不清楚,這裡簡單理解為每個屬性的所有取值對應的空間即可。

此外本章還有一些歷史故事之類的,感覺就當故事看看就行。

西瓜書總複習之第1章 緒論

本文僅為個人方便複習回顧 機器學習是目前資訊科技中最激動人心的方向之一,其應用已經深入到生活的各個層面且與普通人的日常生活密切相關。本文為清華大學最新出版的 機器學習 教材的learning notes,書作者是南京大學周志華教授,多個大陸首位彰顯其學術奢華。本篇主要介紹了該教材前兩個章節的知識點以...

西瓜書筆記系列 第1章 緒論 1 1 引言

西瓜書筆記系列 目錄 人們能做出有效的預判,是因為人們已經積累了許多經驗,而通過對經驗的利用,就能對新情況做出有效的決策。對於計算機而言,機器學習正是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗來改善系統自身有效決策的效能。而利用經驗的方法,就是從中構造出一種模型 model 依照這種模型...

機器學習西瓜書筆記 1 緒論

書上要比別人的總結好理解的多 別人說來真覺淺,還需自己來深讀 機器學習輔助2012年美國 歐巴馬以及自動駕駛,其實都非常無比的說明 機器學習無比有前途,可以應用在生活的各個方面 機器學習正是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能 在計算機系統中,經驗 通常以 資料...