機器學習正式更新 NG到西瓜書

首先andrew-ng的斯坦福課程總算是陸陸續續花了乙個半月時間看完了，筆記前前後後整理了前中後篇，但是談不上有什麼理解，基本上也是對照著一位大牛的筆記學習，咩有那份筆記，以我的數學水平怕是很難受。

研究生的數學課程很重要：

數值分析

矩陣理論

隨機過程

數理方程

缺一不可，不要像我當年荒廢了數學，如今的苦味只有自己去品嚐。

在深度學習橫行霸道的年代，我們仍然不能浮躁，我很心動，但是還是仍然得一步乙個腳印踏過去，就和ng說的一樣，建議大家先學機器學習。

西瓜書買了也快兩個月了，今天正式開啟學習。

緒論筆記敲開了機器學習部落格的大門，以後我會陸續更新。

傍晚小街路面上沁出微雨後的濕潤，和煦的細風吹來，抬頭看看天邊的晚霞，嗯，明天又是乙個好天氣。走到水果攤旁，挑了個根蒂蜷縮、敲起來聲音濁響的青綠西瓜，一邊滿心期待著皮薄肉厚瓤甜的爽落感，一邊愉快地想著，這學期狠下了功夫，基礎概念弄的清清楚楚，演算法作業也是信手拈來，這門課成績一定差不了

這段話的感覺很美好，然而我已過了那個年齡，仔細品味，你會發現它反映了我們日常生活中隨處可見的認知過程，不得不說周老師的這個開篇很有心意。

機器學習正是這樣一門學科，它致力於研究如何通過計算的手段,利用經驗來改善自身系統的效能。

〖一、知識點歸納〗

學習演算法（learning algorithm）：機器學習所研究的主要內容，是關於在計算機上從資料中產生「模型」的演算法，即「學習演算法」。

學習演算法的作用:

1.基於提供的經驗資料產生模型

2.面對新情況時,模型可提供相應的判斷

模型(model)：泛指從資料中學得的結果

學習器(learner)：學習演算法在給定資料和引數空間上的例項化

基本術語

要進行機器學習，先要有資料。

資料集(data set):一組記錄的集合

示例/樣本/特徵向量(instance/sample/feature vector)：每條記錄（關於乙個事件或物件的描述）或空間中的每乙個點（對應乙個座標向量）。

屬性/特徵(attribute/feature)：反應事件或物件在某方面的表現或性質的事項。

屬性值(attribute value)：屬性上的取值。

屬性空間/樣本空間/輸入空間(attribute space/sample sapce)：屬性張成的空間。

維數(dimensionality)：屬性的個數。

模型需要從資料中學得。

學習/訓練(learning/training)：從資料中學得模型的過程。

訓練資料(training data)：訓練過程中使用的資料。

訓練樣本(training sample)：每個樣本。

訓練集(training set)：訓練樣本組成的集合。

假設(hypothesis)：學習模型對應了關於資料的某種潛在的規律。

真相/真實(ground-truth)：這種潛在規律自身。

學習過程就是為了找出或逼近真相。

獲得訓練樣本的結果資訊，才能建立「**」的模型。

標記(label)：關於示例結果的資訊。

樣例(example)：擁有了標記資訊的示例。

標記空間(label space)：所有標記的集合。

測試(testing)：學得模型後，使用其進行**的過程。

測試樣本(testing sample)：被**的樣本。

聚類(clustering)：將訓練集中的訓練樣本分成若干組。

簇(cluster)：每組稱為乙個「簇」，這些自動形成的「簇」可能對應一些潛在的概念劃分。

根據訓練資料是否擁有標記資訊，學習任務可大致劃分為兩類。

監督學習(supervised learning)

無監督學習(unsupervised learning)

機器學習的目標是使學得的模型能更好地適用於「新樣本」。

泛化(generalization)：學得模型適用於新樣本的能力。

假設空間

歸納學習(inductive learning)

演繹(deduction)

學習過程看作乙個在所有假設組成的空間中進行的搜尋的過程，搜尋目標是找到與訓練集「匹配」的假設。

假設空間(hypothsis sapce)：機器學習中可能的函式構成的空間稱為「假設空間」。

版本空間(version space)：乙個與訓練集一致的「假設集合」。

歸納偏好

歸納偏好(inductive bias)：機器學習演算法在學習過程中對某種型別假設的偏好。

任何乙個有效的機器學習演算法必有其歸納偏好。

「奧卡姆剃刀」原則：「若有多個假設與觀察一致，則選最簡單的那個。」

注意：奧卡姆剃刀並非唯一可行的原則；

奧克姆剃刀本身存在不同的詮釋。

「沒有免費的午餐」定理（nfl定理）：總誤差與學習演算法無關。

注意：脫離具體問題，空泛的談論「什麼學習演算法更好」，毫無意義。

〖二、難點分析〗

p5 假設空間的規模問題

1.某一屬性值無論取什麼都合適，我們用萬用字元「*」來表示。

2.世界上沒有，我們用「∅」來表示。

書中例子為西瓜，為判斷西瓜的好壞，其屬性有三種，即：色澤、根蒂、敲聲。

這三種屬性分別有3、3、3種可能取值，但假設空間的規模卻是4×4×4+1=65。

這是因為，在假設空間中，屬性的「無論取什麼屬性值都合適」也是一種屬性值，而不是作為單一屬性的3種可能取值的集合存在。

因為假設空間是機器學習中可能的函式構成的空間，「無論取什麼屬性值都合適」意味著這個函式與這一屬性無關。

例如，如果西瓜的三個屬性取值都是「無論取什麼屬性值都合適」，那麼無論什麼瓜，都是好瓜。而不是3×3×3=27個種類的瓜的集合，並不需要依次判斷，需要的判斷僅僅是——它是瓜。

所以其假設空間為：

××+1（沒有「好瓜」的定義）=65

關於之前提到的ng學習筆記：

吃飯去了，主要是摘錄部落格1的，做個備忘錄。

機器學習西瓜書筆記

概念致力於通過計算的手段，利用經驗來改善系統自身的效能。其中，經驗以資料的形式存在。基本術語資料集記錄的集合。示例樣本每條記錄，關於乙個事件或物件的描述，反應事件或物件在某方面的表現或性質的事項。屬性特徵一條記錄乙個樣本由多個屬性特徵組成。屬性值屬性或特徵的值。示例對應於乙個座標...

機器學習西瓜書基本術語

一組記錄的集合，例如注 d dd又稱為樣本的維數資料集中每條記錄是關於乙個事件或物件的描述，例如反映事件或物件在某方面的表現或性質的事項，例如屬性上的取值，例如屬性張成的空間，例如假設有三種屬性色澤根蒂敲聲，就可以張成乙個用於描述細化的三維空間，每個西瓜都可以在這個空間中找到自己的...

機器學習（西瓜書）緒論筆記

正如我們根據過去的經驗來判斷明天的天氣，吃貨們希望從購買經驗中挑選乙個好瓜，那能不能讓計算機幫助人類來實現這個呢？機器學習正是這樣的一門學科，人的經驗對應計算機中的資料讓計算機來學習這些經驗資料，生成乙個演算法模型，在面對新的情況中，計算機便能作出有效的判斷，這便是機器學習。另一本經典教材的...

機器學習正式更新 NG到西瓜書

機器學習西瓜書筆記

機器學習西瓜書 基本術語

機器學習（西瓜書） 緒論筆記

相關推薦

機器學習西瓜書基本術語

機器學習（西瓜書）緒論筆記