西瓜書 周志華 機器學習第一章 緒論

2021-10-19 05:13:14 字數 3739 閱讀 7755

1.什麼是機器學習?

人區別於機器,更多是基於經驗累積起來的個體。比如今天我起床看見天空有點兒灰暗,沒有太陽,那我就可以初步預判今天應該是會下雨。走在路上發現,風越吹越大,蜻蜓也在低飛,天越來越黑,這時你知道要下雨了,而且根據以往十幾年來的經驗判斷,這雨還不小,我得趕緊找個地方躲起來。

人呢 遇到事多了,就積累了經驗,從而下次有新的情況時,能用經驗做出判斷和決策。機器學習,與以往的你程式設計讓機器做什麼它就做什麼不同,它就是讓機器像人一樣有『思維』 。

對於機器來說,經驗通常以資料的形式存在,有了很多資料之後就可以建立起資料模型。資料模型在下次的新情況中,就能幫助你給你做出決策和判斷(**)

機器學習的主要研究內容呢,就是在計算機上從資料中產生模型的演算法,即學習演算法。機器學習的過程,也是個不斷優化演算法的過程。通過大量的資料,使得**結果一步步接近資料的真實值。

機器學習就先得有資料,那就先來看一些關於資料的術語吧

2.機器學習的基本術語

現在路邊有一卡車西瓜,你要挑個好的帶回家,你也不會挑你找賣瓜的小哥賣個萌讓他給你挑。他挑了個色澤青綠、根蒂捲曲、敲聲濁響的西瓜,帶回家果然是個好瓜。

資料集:樣本的集合 就是這一卡車西瓜

示例:((色澤=青綠;根蒂=捲曲;敲聲=濁響),好瓜) 這就是個示例 卡車裡挑出來的乙個好瓜

屬性:色澤 根蒂 敲聲

屬性值:每個屬性有屬性值 色澤的屬性值就是青綠啊烏黑啊 根蒂的屬性值就是捲曲啊直的啊 等等

特徵向量:把色澤/根蒂/敲聲分別設為x/y/z 每個屬性的屬性值會對應在各自的座標軸上找到自己的對應位置 比如(1,2,3) 是((色澤=青綠;根蒂=捲曲;敲聲=濁響),好瓜) 這組資料的位置

屬性空間:這堆特徵向量加起來生成乙個三維空間 每個特徵向量可以在屬性空間找到自己的點

好的,現在你想天天吃西瓜,於是你也想賣瓜,那你要學挑好瓜嘛。然後現在我就去西瓜園裡學挑西瓜了,從資料中學得模型的過程叫做學習或訓練。

訓練集:這次在西瓜園裡的你挑過的所有西瓜 機器訓練的資料的集合

訓練樣本:西瓜園裡挑過的每乙個西瓜 機器訓練的資料個體

假設:挑了那麼多西瓜後 得出的好瓜的某種規律

真相/真實:好瓜它自帶的規律

學習的過程就是讓假設越來越逼近真相啦!

標記/標籤:((色澤=青綠;根蒂=捲曲;敲聲=濁響),好瓜)

樣例:帶有標記的樣本 有個瓜被你寫上這是個好瓜 就能拿來做樣例

3.監督學習和無監督學習

(1) 監督學習 (分類與回歸)

監督學習是指監給機器一定的資料集,資料集裡每個元素都有相應的正確標籤,讓機器學習這些資料集,來訓練出可以達到預期相應的正確標籤的模型。也就是說給定機器學習的目標,告訴它這些資料你要怎麼分怎麼處理,以後的資料讓自己去學習著處理,就監督了它學習嘛。

分類:離散值 可分二分類和多分類

二分類:通常是一組對立兩面的資料

好瓜 壞瓜/是惡性腫瘤 是良性腫瘤

患者年齡和腫瘤大小

多分類:兩個以上的分類

黑美人/無籽西瓜/黃肉西瓜 根據得腫瘤年齡和年齡大小分類

西瓜成熟度0.77 0.99/房子的**20萬 30萬

(2) 無監督學習(聚類)

不同於監督學習,無監督學習的資料沒有告訴學習演算法「正確答案」,就是乙個普通的資料集,無監督學習演算法可以把這些資料集分成不同的簇(聚類演算法)。就是說丟堆資料給機器,我也不教機器分,你自己看著資料的共同特徵去分成不同的類,自己學著去吧,就是無監督學習。

比如對西瓜做聚類,即將訓練集的西瓜分為若干組,每組成為乙個簇。這些自動形成的簇,可能對應著一些潛在的劃分, 如『本地瓜』『外地瓜』 ,『淺色瓜』『深色瓜』 ,這樣的學習過程能更好的了解資料內在規律,這個過程中資料一般是不擁有標籤資訊的。

(3)泛化

如果用某個資料集的樣本訓練出的乙個模型(假設函式),能夠適用於新的樣本資料,就說這個模型具有泛化能力。模型能適用於越多的新資料,則說明其泛化能力越強。

4.假設空間

假設空間是指所有可能假設組成的空間,也可以說是所有在表達形式上符合任務要求的假設函式的集合。

打個比方,現在要判斷乙個人是男孩還是女孩。分別有屬性值:喉結(有喉結/沒喉結)頭髮(光頭/長頭髮/短頭髮)**(白皙水嫩/烏黑粗糙)這3個屬性和括號內的各屬性值,然後又不排除有第三種性別的說法(男人、女人、女博士)純屬調侃哈哈這種極端的情況,那它的假設空間就有233+1=19這麼大。反正呢,就是得把各種情況考慮進去。

5 歸納偏好

奧卡姆剃定律:如果關於同乙個問題有許多解決方法,每一種都能作出同樣準確的預言,那麼應該挑選其中使用假定最少的。儘管越複雜的方法通常能做出越好的預言,但是在不考慮預言能力(即結果大致相同)的情況下,假設越少越好。

康康a曲線就很簡潔大氣,用乙個拋物線函式就能表達出來 ,而b就看起來複雜很多,我和奧卡姆剃都覺得a很不錯哈哈哈。

nfl定理:「沒有免費的午餐(no free lunch theorem, nfl)」:無論學習演算法「聰明」與否,他們的期望值相同。乙個重要前提:所有問題出現的機會相同,但實際情況更多是不相同。

這裡我來分享乙個我在乙個浙大人工智慧老師的講課那裡看來的關於講這個定理的小故事,感覺挺好玩的。

有這樣乙個農夫養了乙隻雞,每次要喂這只雞吃飯呢,就把吃的放草叢裡面,他就搖鈴鐺趕著雞去草叢裡。這樣過去兩個多星期,雞就知道嘛,這個鈴鐺聲一出來,就是要開飯了 ,它就自己往草叢裡衝。直到後來兩年後這只雞越養越肥,在乙個風和日麗的早上,農夫一搖鈴鐺,雞往草叢裡衝,進然後它就被殺了吃了。

這個故事告訴我們的是要**嗎?當然不是。就是呢,我們機器學習,用演算法很多時候,都是希望它**出擬合於雞每天衝出去有飯吃的情況。就跟我們每天早上醒來太陽會從東邊公升起一樣,大大大多時候都是這樣的。但是呢,事實上像雞突然有一天就被吃了的可能性也是存在的。

天下沒有免費的午餐這個定理的意思就是說,雞有得吃和雞被吃兩種可能性都是等同的,那它的演算法的假設情況都應該是等同概率發生的,那這樣整那麼多演算法都一樣嘛,那演算法就沒優劣之分。但是呢,在我們的實際情況中,更多還是偏向於聽到鈴鐺聲雞有得吃,就像我們覺得,明天太陽照常東邊公升起一樣。所以呢,我覺得演算法是相對的優劣,根據自己的偏好去選擇演算法,解決不同的問題,才有優劣這一說法。

機器學習第一章緒論(周志華西瓜書)

目錄 第一章 緒論 1.1 引言 1.2 基本術語 1.3 假設空間 1.4 歸納偏好 1.5 發展歷程 1.6 應用現狀 1.7閱讀材料 2.課後練習 由 的值是否連續分類 由是否有標記分類 最終可能會有很多與訓練集一致的假設 無法取捨 通過實際偏好來選擇 有沒有一般性原則來引導選擇正確的偏好呢?...

西瓜書第一章 緒論

人工智慧發展歷程 1 推理期 二十世紀五十年代到七十年代初。2 知識期 二十世紀七十年代中期,專家系統。3 學習期 二十世紀八十年代以來,被研究最多 應用最廣的是 從樣例中學習 一大主流是符號主義學習,代表包括決策樹和基於邏輯的學習 二十世紀九十年代中期之前,從樣例中學習 的另一主流技術是基於神經網...

(學習筆記)西瓜書 第一章

學習演算法 機器學習所研究的主要內容,是關於在計算機上從資料中產生 模型 的演算法,即 學習演算法 學習演算法的作用 屬性 特徵 反應事件或物件在某方面的表現或性質的事項 樣本空間 輸入空間 屬性張成的空間 n個特徵 n維空間 模型 從資料中學得的結果 學習器 學習演算法在給定資料和引數空間上的例項...