機器學習第一章緒論(周志華西瓜書)

2021-09-22 20:10:44 字數 1871 閱讀 6151

目錄

第一章 緒論

1.1 引言

1.2 基本術語

1.3 假設空間

1.4 歸納偏好

1.5 發展歷程

1.6 應用現狀

1.7閱讀材料

2.課後練習

由**的值是否連續分類

由是否有標記分類

最終可能會有很多與訓練集一致的假設 無法取捨

通過實際偏好來選擇

有沒有一般性原則來引導選擇正確的偏好呢?

奧卡姆剃刀:若有多個假設與觀察一致,選擇簡單的那個(如最光滑的曲線)

nfl定理(沒有免費的午餐)定理:a,b演算法期望效能相同。

寓意:不能脫離具體問題空談什麼演算法更好,因為,若考慮所有潛在問題,則所有演算法一樣好。

資料探勘與機器學習的關係

統計學主要通過機器學習對資料探勘發揮影響

西瓜書1.1

表示好瓜的話,那麼我們就看第一行,色澤青綠,可以表示的是(青綠,),根蒂捲曲,可以表示的是(捲曲,),敲聲就是(渾濁,*),互相組合就得到

a. 青綠,捲曲,濁響

b. 青綠,捲曲, *

c. 青綠, * ,濁響

d. 青綠, * , *

e. * ,捲曲, 濁響

f. * , * ,濁響

g. * , 捲曲, *

h. * , * , *

為了表示完全好瓜這一項,我們當然要把能夠表示壞瓜的情況去掉,所以就是去掉了,,*。就是h這項,所以這道題的答案應該是七種。

西瓜書習題1.2

與使用單個合取式來進行假設表示相比,使用「析合正規化」將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設。

西瓜書習題1.2.png

首先知道合取析取

合取:所有屬性同時存在,集合中的取交集;舉個例子就是,組成乙個棒棒小聊的條件有胳膊,腿和頭,每乙個屬性不可少(當然這三個只是一部分),就像題目中好西瓜中的色澤,根蒂,敲聲合取得到乙個好瓜乙個意思。

析取:至少乙個屬性存在,集合中的取並集;例如,結合到這個問題上呢,就是表示了乙個好孩子可以用學習好表示,也可以用品德好表示,這兩個中任意乙個都可以表示好瓜。

來分析下,

表1.1包含3種屬性

它的假設空間和大小為 3×4×4+1=49 在加上*號的情況下。

考慮冗餘情況: 2×3×3=18,沒有*號的情況下。

不考慮冗餘、空集的情況下k最大取值為48,考慮冗餘的情況下k最大取值為18.

k=1時,共48種;

k=18時,共1種。

西瓜書習題1.3

若資料報含雜訊,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇。

歸納偏好還是需要根據實際問題來做的

資料雜訊是指在一組資料中無法解釋的資料變動,就是一些不和其他資料相一致的資料。

所以如果資料量比較大,我們可以適當的刪除掉這些資料,而資料量比較小的時候,我們可以選擇使用相似性度量來衡量雜訊資料與真實偏好的距離,將其歸於正確與否。

西瓜書習題1.5

試述機器學習在網際網路搜尋的哪些環節起什麼作用

西瓜書 周志華 機器學習第一章 緒論

1.什麼是機器學習?人區別於機器,更多是基於經驗累積起來的個體。比如今天我起床看見天空有點兒灰暗,沒有太陽,那我就可以初步預判今天應該是會下雨。走在路上發現,風越吹越大,蜻蜓也在低飛,天越來越黑,這時你知道要下雨了,而且根據以往十幾年來的經驗判斷,這雨還不小,我得趕緊找個地方躲起來。人呢 遇到事多了...

西瓜書第一章 緒論

人工智慧發展歷程 1 推理期 二十世紀五十年代到七十年代初。2 知識期 二十世紀七十年代中期,專家系統。3 學習期 二十世紀八十年代以來,被研究最多 應用最廣的是 從樣例中學習 一大主流是符號主義學習,代表包括決策樹和基於邏輯的學習 二十世紀九十年代中期之前,從樣例中學習 的另一主流技術是基於神經網...

(學習筆記)西瓜書 第一章

學習演算法 機器學習所研究的主要內容,是關於在計算機上從資料中產生 模型 的演算法,即 學習演算法 學習演算法的作用 屬性 特徵 反應事件或物件在某方面的表現或性質的事項 樣本空間 輸入空間 屬性張成的空間 n個特徵 n維空間 模型 從資料中學得的結果 學習器 學習演算法在給定資料和引數空間上的例項...