機器學習系列筆記一 Introduction

2021-10-07 14:20:48 字數 2779 閱讀 4987

機器學習的工作流程

機器學習演算法的傳統分類

機器學習演算法的其他分類方式

引數學習/非引數學習

以鳶尾花的資料集為例:

花萼長度

花萼寬度

花瓣長度

花瓣寬度

種類5.1

3.21.4

0.2se(0)

7.03.2

4.71.4

ve(1)

6.33.3

62.5

vi(2)

可轉換為多分類問題的任務

如何處理分類任務

多標籤分類

對中的人物以及其他物品都進行劃分。

針對以波士頓房價資料為例的連續資料,機器學習將之處理為回歸任務

房屋面積(平方公尺)

房屋年齡(年)

臥室數量(間)

最近地鐵站距離(km)

**(w)803

11030012083

5500

2005412

700

如何處理回顧任務

機器學習演算法

模型 給機器的訓練資料擁有「標記」或者「答案」,則稱為監督式學習。

監督學習演算法

給機器訓練的資料是沒有任何標記或"答案",稱之為非/無監督學習

應用場景

異常檢測

一部分資料有「 標記」或者「答案」,而另一部分沒有。

常規處理方案

根據周圍環境的情況,採取行動,根據採取行動的結果,學習行動方式。這樣的機器學習方法稱之為增強學習。

代表演算法

批量學習(離線學習)

缺點:每次重新批量學習都會對cpu/gpu造成極大的開銷,同時會產生時間的開銷。

在某些環境變化非常塊的情景,重新批量學習是沒有意義的。

問題:新的資料(不正常的資料)可能帶來不好的變化

引數學習

假設可以最大程度地簡化學習過程,與此同時也限制可以學習到是什麼,這種演算法簡化成乙個已知的函式形式,即通過固定數目的引數來擬合資料的演算法。

特點:一旦模型學習到了引數,就不再需要原有的資料集。

比如房價**就是引數學習的一種,我們試圖找到房屋各個特徵對房價結果的影響程度,而這些影響程度就是引數:

引數學習演算法包括兩個步驟:

引數學習演算法的一些常見例子包括:

引數機器學習演算法的優點:

引數機器學習演算法的侷限性:

非引數學習

特點:不對模型進行過多假設,將模型視作乙個黑盒,非引數不等於沒引數。通過不做假設,它們可以從訓練資料中自由地學習任何函式形式,即引數數量會隨著訓練樣本數量的增長的演算法。

非引數學習演算法的一些常見例子包括:

非引數機器學習演算法的優點:

非引數機器學習演算法的侷限性:

過擬合:更多的過度擬合訓練資料風險,同時它更難解釋為什麼要做出的具體**

區域性加權線性回歸其實是乙個非引數學習演算法(non-parametric learning algorithm);

線性回歸則是乙個引數學習演算法(parametric learning algorithm),因為它的引數是固定不變的,而區域性加權線性回歸的引數是隨著**點的不同而不同。

過擬合:更多的過度擬合訓練資料風險,同時它更難解釋為什麼要做出的具體**

區域性加權線性回歸其實是乙個非引數學習演算法(non-parametric learning algorithm);

線性回歸則是乙個引數學習演算法(parametric learning algorithm),因為它的引數是固定不變的,而區域性加權線性回歸的引數是隨著**點的不同而不同。

由於每次**時都只看**點附近的例項點,因此每一次**都要重新執行一遍演算法,得出乙個組引數值,因此其計算代價很大。

機器學習系列筆記(一)

通俗來講,機器學習是一門致力於研究如何通過計算的手段,利用資料來改善系統自身的效能的學科。在進行機器學習之前,我們應該提前收集一批資料作為計算機的 經驗 這組資料的集合稱為資料集 其中每條記錄是關於乙個事件或者物件的描述,稱為示例 在事例中反映物件的某方面屬性稱為屬性或特徵 特徵的值稱為屬性值 所有...

機器學習系列筆記 五

learning 拆分為兩個問題 一 我們如何可以讓ein g 和eout g 足夠接近?二 如何讓ein g 變的越來越小?m hyposesis的大小 m比較小的時候 good,p bad 2mexp bad 很少的選擇 m比較大的時候 好的選擇,壞事情發生的機率增加 把hypotheses 分...

機器學習系列筆記 八

雜訊與錯誤 noise and error 不同錯誤適用於不同的場景 false accpet 錯誤接受 false reject 錯誤拒絕 商場打折 fbi門禁 各種情況下有不同的權重 weighted classification weighted pocket algorithm 權重口袋演算...