機器學習正式更新 NG到西瓜書

2021-08-10 21:33:08 字數 4094 閱讀 4740

首先andrew-ng的斯坦福課程總算是陸陸續續花了乙個半月時間看完了,筆記前前後後整理了前中後篇,但是談不上有什麼理解,基本上也是對照著一位大牛的筆記學習,咩有那份筆記,以我的數學水平怕是很難受。

研究生的數學課程很重要:

數值分析

矩陣理論

隨機過程

數理方程

缺一不可,不要像我當年荒廢了數學,如今的苦味只有自己去品嚐。

在深度學習橫行霸道的年代,我們仍然不能浮躁,我很心動,但是還是仍然得一步乙個腳印踏過去,就和ng說的一樣,建議大家先學機器學習。

西瓜書買了也快兩個月了,今天正式開啟學習。

緒論筆記敲開了機器學習部落格的大門,以後我會陸續更新。

傍晚小街路面上沁出微雨後的濕潤,和煦的細風吹來,抬頭看看天邊的晚霞,嗯,明天又是乙個好天氣。走到水果攤旁,挑了個根蒂蜷縮、敲起來聲音濁響的青綠西瓜,一邊滿心期待著皮薄肉厚瓤甜的爽落感,一邊愉快地想著,這學期狠下了功夫,基礎概念弄的清清楚楚,演算法作業也是信手拈來,這門課成績一定差不了

這段話的感覺很美好,然而我已過了那個年齡,仔細品味,你會發現它反映了我們日常生活中隨處可見的認知過程,不得不說周老師的這個開篇很有心意。

機器學習正是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗來改善自身系統的效能。

〖一、知識點歸納〗

學習演算法(learning algorithm):機器學習所研究的主要內容,是關於在計算機上從資料中產生「模型」的演算法,即「學習演算法」。

學習演算法的作用:

1.基於提供的經驗資料產生模型

2.面對新情況時,模型可提供相應的判斷

模型(model):泛指從資料中學得的結果

學習器(learner):學習演算法在給定資料和引數空間上的例項化

基本術語

要進行機器學習,先要有資料。

資料集(data set):一組記錄的集合

示例/樣本/特徵向量(instance/sample/feature vector):每條記錄(關於乙個事件或物件的描述)或空間中的每乙個點(對應乙個座標向量)。

屬性/特徵(attribute/feature):反應事件或物件在某方面的表現或性質的事項。

屬性值(attribute value):屬性上的取值。

屬性空間/樣本空間/輸入空間(attribute space/sample sapce):屬性張成的空間。

維數(dimensionality):屬性的個數。

模型需要從資料中學得。

學習/訓練(learning/training):從資料中學得模型的過程。

訓練資料(training data):訓練過程中使用的資料。

訓練樣本(training sample):每個樣本。

訓練集(training set):訓練樣本組成的集合。

假設(hypothesis):學習模型對應了關於資料的某種潛在的規律。

真相/真實(ground-truth):這種潛在規律自身。

學習過程就是為了找出或逼近真相。

獲得訓練樣本的結果資訊,才能建立「**」的模型。

標記(label):關於示例結果的資訊。

樣例(example):擁有了標記資訊的示例。

標記空間(label space):所有標記的集合。

測試(testing):學得模型後,使用其進行**的過程。

測試樣本(testing sample):被**的樣本。

聚類(clustering):將訓練集中的訓練樣本分成若干組。

簇(cluster):每組稱為乙個「簇」,這些自動形成的「簇」可能對應一些潛在的概念劃分。

根據訓練資料是否擁有標記資訊,學習任務可大致劃分為兩類。

監督學習(supervised learning)

無監督學習(unsupervised learning)

機器學習的目標是使學得的模型能更好地適用於「新樣本」。

泛化(generalization):學得模型適用於新樣本的能力。

假設空間

歸納學習(inductive learning)

演繹(deduction)

學習過程看作乙個在所有假設組成的空間中進行的搜尋的過程,搜尋目標是找到與訓練集「匹配」的假設。

假設空間(hypothsis sapce):機器學習中可能的函式構成的空間稱為「假設空間」。

版本空間(version space):乙個與訓練集一致的「假設集合」。

歸納偏好

歸納偏好(inductive bias):機器學習演算法在學習過程中對某種型別假設的偏好。

任何乙個有效的機器學習演算法必有其歸納偏好。

「奧卡姆剃刀」原則:「若有多個假設與觀察一致,則選最簡單的那個。」

注意: 奧卡姆剃刀並非唯一可行的原則;

奧克姆剃刀本身存在不同的詮釋。

「沒有免費的午餐」定理(nfl定理):總誤差與學習演算法無關。

注意:脫離具體問題,空泛的談論「什麼學習演算法更好」,毫無意義。

〖二、難點分析〗

p5 假設空間的規模問題

1.某一屬性值無論取什麼都合適,我們用萬用字元「*」來表示。

2.世界上沒有,我們用「∅」來表示。

書中例子為西瓜,為判斷西瓜的好壞,其屬性有三種,即:色澤、根蒂、敲聲。

這三種屬性分別有3、3、3種可能取值,但假設空間的規模卻是4×4×4+1=65。

這是因為,在假設空間中,屬性的「無論取什麼屬性值都合適」也是一種屬性值,而不是作為單一屬性的3種可能取值的集合存在。

因為假設空間是機器學習中可能的函式構成的空間,「無論取什麼屬性值都合適」意味著這個函式與這一屬性無關。

例如,如果西瓜的三個屬性取值都是「無論取什麼屬性值都合適」,那麼無論什麼瓜,都是好瓜。而不是3×3×3=27個種類的瓜的集合,並不需要依次判斷,需要的判斷僅僅是——它是瓜。

所以其假設空間為:

××+1(沒有「好瓜」的定義)=65

關於之前提到的ng學習筆記:

吃飯去了,主要是摘錄部落格1的,做個備忘錄。

機器學習西瓜書筆記

概念 致力於通過計算的手段,利用經驗來改善系統自身的效能。其中,經驗以資料的形式存在。基本術語 資料集 記錄的集合。示例 樣本 每條記錄,關於乙個事件或物件的描述,反應事件或物件在某方面的表現或性質的事項。屬性 特徵 一條記錄 乙個樣本由多個屬性 特徵組成。屬性值 屬性或特徵的值。示例對應於乙個座標...

機器學習西瓜書 基本術語

一組記錄的集合,例如 注 d dd又稱為樣本的維數 資料集中每條記錄是關於乙個事件或物件的描述,例如 反映事件或物件在某方面的表現或性質的事項,例如 屬性上的取值,例如 屬性張成的空間,例如 假設有三種屬性 色澤 根蒂 敲聲,就可以張成乙個用於描述細化的三維空間,每個西瓜都可以在這個空間中找到自己的...

機器學習(西瓜書) 緒論筆記

正如我們根據過去的經驗來判斷明天的天氣,吃貨們希望從購買經驗中挑選乙個好瓜,那能不能讓計算機幫助人類來實現這個呢?機器學習正是這樣的一門學科,人的 經驗 對應計算機中的 資料 讓計算機來學習這些經驗資料,生成乙個演算法模型,在面對新的情況中,計算機便能作出有效的判斷,這便是機器學習。另一本經典教材的...