機器學習系列筆記一 Introduction

機器學習的工作流程

機器學習演算法的傳統分類

機器學習演算法的其他分類方式

引數學習/非引數學習

以鳶尾花的資料集為例：

花萼長度

花萼寬度

花瓣長度

花瓣寬度

種類5.1

3.21.4

0.2se(0)

7.03.2

4.71.4

ve(1)

6.33.3

62.5

vi(2)

可轉換為多分類問題的任務

如何處理分類任務

多標籤分類

對中的人物以及其他物品都進行劃分。

針對以波士頓房價資料為例的連續資料，機器學習將之處理為回歸任務

房屋面積(平方公尺)

房屋年齡(年)

臥室數量(間)

最近地鐵站距離(km)

**(w)803

11030012083

5500

2005412

700

如何處理回顧任務

機器學習演算法

模型給機器的訓練資料擁有「標記」或者「答案」，則稱為監督式學習。

監督學習演算法

給機器訓練的資料是沒有任何標記或"答案"，稱之為非/無監督學習

應用場景

異常檢測

一部分資料有「標記」或者「答案」，而另一部分沒有。

常規處理方案

根據周圍環境的情況，採取行動，根據採取行動的結果，學習行動方式。這樣的機器學習方法稱之為增強學習。

代表演算法

批量學習(離線學習)

缺點：每次重新批量學習都會對cpu/gpu造成極大的開銷，同時會產生時間的開銷。

在某些環境變化非常塊的情景，重新批量學習是沒有意義的。

問題：新的資料(不正常的資料)可能帶來不好的變化

引數學習

假設可以最大程度地簡化學習過程，與此同時也限制可以學習到是什麼，這種演算法簡化成乙個已知的函式形式，即通過固定數目的引數來擬合資料的演算法。

特點：一旦模型學習到了引數，就不再需要原有的資料集。

比如房價**就是引數學習的一種，我們試圖找到房屋各個特徵對房價結果的影響程度，而這些影響程度就是引數：

引數學習演算法包括兩個步驟：

引數學習演算法的一些常見例子包括：

引數機器學習演算法的優點：

引數機器學習演算法的侷限性：

非引數學習

特點：不對模型進行過多假設，將模型視作乙個黑盒，非引數不等於沒引數。通過不做假設，它們可以從訓練資料中自由地學習任何函式形式，即引數數量會隨著訓練樣本數量的增長的演算法。

非引數學習演算法的一些常見例子包括：

非引數機器學習演算法的優點：

非引數機器學習演算法的侷限性：

過擬合：更多的過度擬合訓練資料風險，同時它更難解釋為什麼要做出的具體**

區域性加權線性回歸其實是乙個非引數學習演算法(non-parametric learning algorithm)；

線性回歸則是乙個引數學習演算法(parametric learning algorithm)，因為它的引數是固定不變的，而區域性加權線性回歸的引數是隨著**點的不同而不同。

過擬合：更多的過度擬合訓練資料風險，同時它更難解釋為什麼要做出的具體**

區域性加權線性回歸其實是乙個非引數學習演算法(non-parametric learning algorithm)；

線性回歸則是乙個引數學習演算法(parametric learning algorithm)，因為它的引數是固定不變的，而區域性加權線性回歸的引數是隨著**點的不同而不同。

由於每次**時都只看**點附近的例項點，因此每一次**都要重新執行一遍演算法，得出乙個組引數值，因此其計算代價很大。

機器學習系列筆記（一）

通俗來講，機器學習是一門致力於研究如何通過計算的手段，利用資料來改善系統自身的效能的學科。在進行機器學習之前，我們應該提前收集一批資料作為計算機的經驗這組資料的集合稱為資料集其中每條記錄是關於乙個事件或者物件的描述，稱為示例在事例中反映物件的某方面屬性稱為屬性或特徵特徵的值稱為屬性值所有...

機器學習系列筆記五

learning 拆分為兩個問題一我們如何可以讓ein g 和eout g 足夠接近?二如何讓ein g 變的越來越小?m hyposesis的大小 m比較小的時候 good,p bad 2mexp bad 很少的選擇 m比較大的時候好的選擇,壞事情發生的機率增加把hypotheses 分...

機器學習系列筆記八

雜訊與錯誤 noise and error 不同錯誤適用於不同的場景 false accpet 錯誤接受 false reject 錯誤拒絕商場打折 fbi門禁各種情況下有不同的權重 weighted classification weighted pocket algorithm 權重口袋演算...

機器學習系列筆記一 Introduction

機器學習系列筆記（一）

機器學習系列筆記 五

機器學習系列筆記 八

相關推薦

機器學習系列筆記五

機器學習系列筆記八