西瓜書閱讀筆記1

2021-09-03 08:16:54 字數 978 閱讀 6284

根據已有的知識經驗,形成模型。並根據模型來感知未知的新事物的過程。

身高體重

膚色18070黃

17562

白18580黑

樣本:上面**中,每一行就是乙個樣本。乙個樣本包含了一種事物的完整屬性,這些屬性不重複。

資料集:所有的樣本的總和,稱為資料集。

特徵:例如,身高就是一種特徵,膚色也是一種特徵。也可以稱作屬性。

特徵值:具體對應特徵上的特徵值。

訓練資料:用於生成模型的資料就是訓練資料。

訓練集:所有訓練資料的總和構成訓練集。

學習、訓練、建模:通過資料生成模型的過程叫做訓練。

標記:對於乙個樣本,給他乙個稱謂。或者打個標籤。這個標籤就是標記。這個標籤可以是:好人或壞人。也可以是連續值:工資2500元。。。

回歸問題:對於標籤值是不可數的連續值的型別,屬於回歸問題。如**工資。屬於監督學習

分類問題:對於標籤值是有限的離散型別的,屬於分類問題。如區分好人壞人。屬於監督學習

聚類:不涉及到預設標籤的問題,讓機器自己去發現不同樣本之間的相似性,根據相似性劃分類別。相似度高的劃分為同一類。屬於無監督學習

泛化能力:我們想要達到的目的是根據已有的資料獲取資料的模型或者模式。根據已有的模型對未知資料進行處理(回歸、分類或許聚類),具有較好的泛化能力指的是資料處理能力較高。

一般:訓練資料量越大,模型的泛化能力越高。

奧卡姆剃刀:若多個假設與觀察一致,則選擇最簡單的那個。

當然,具體問題具體分析,任何演算法不能說自己是最好的。沒有最好的演算法,只有最合適的。

機器學習西瓜書筆記 1 緒論

書上要比別人的總結好理解的多 別人說來真覺淺,還需自己來深讀 機器學習輔助2012年美國 歐巴馬以及自動駕駛,其實都非常無比的說明 機器學習無比有前途,可以應用在生活的各個方面 機器學習正是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能 在計算機系統中,經驗 通常以 資料...

西瓜書筆記3

續上一章的模型和模型評估後,這個線性模型是乙個具體模型。它的優點在於簡單易建,能夠作為非線性非線性模型的基礎。而它的本質就是應用函式進行資料的結果 關於線性回歸,是對樣例特徵做線性加權,輸出 結果,盡量使得 結果和真實輸出值之間的均方誤差最小化。這裡涉及到乙個特徵屬性的量化問題,有些屬性可以直接量化...

機器學習西瓜書閱讀筆記 (一)基礎概念

假設空間 版本空間 nfl沒有免費午餐定理 參考文獻 假設p在用來評估電腦程式在某任務t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能的改善,則我們就說關於t和p,該程式對e進行了學習。分類和回歸是監督學習的代表聚類是無監督學習的代表如圖是西瓜書上的乙個資料集 學習目標 好瓜 好瓜的影響因...