初學機器學習筆記

2021-07-27 04:40:34 字數 1303 閱讀 7196

機器學習(machine learning, ml)是一門多領域交叉學科,涉及概率論、統計學、

逼近論 、

凸分析 、

演算法複雜度

理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。

機器學習是人工智慧研究發展到一定階段的必然產物。二十世紀五十年代到七十年代初,人工智慧研究處於「推理期」,那時人們以為只要能賦予機器邏輯推理能力,機器就能具有智慧型。但是後來人們逐漸認識到僅具有邏輯推理能力是遠遠實現不了人工智慧的,故從二十世紀七十年代中期開始,人工智慧研究進入了「知識期」。一開始採用的方式是由人來把知識總結出來再教給計算機。但是這種方式很明顯存在很多問題的,比如(1)單純的賦予,使得這種人工智慧應用很窄(2)對於有些問題,發現它的規則是很難的或者其解空間根本舉例不完。所以後來有些學者想到,如果機器自己能夠學習該多好!

人工智慧進入機器學習(從樣例中學習)後,也是經過很多發展的,一開始一大主流是符號主義學習,決策樹就是其中的乙個代表。而到了二十世紀九十年代中期,一種看似更本質化、研究資料規律的統計學習則是佔了主流的地位。不過目前的主流則是深度學習和統計學習。

1、特徵選擇

在現實機器學習任務中,獲得資料之後通常先進行特徵選擇,因為對於乙個學習任務來說,給定屬性集,其中有些屬性很關鍵、很有用,另一些屬性則可能沒什麼用,對學習任務有用的屬性稱為「相關特徵」、沒什麼用的稱為」無關特徵「。

為什麼要進行特徵選擇?

(1)處理現實任務中經常會遇到的維數災難。

(2)去除不相關往往會降低學習任務難度。

幾種特徵選擇的方法:

(1)、過濾式選擇     (2)、包裹式選擇     (3)、嵌入式選擇與l1正則化   (4)、稀疏學習

2、降維

」維數災難「是所有機器學習方法共同面臨的嚴重障礙。因為每一任務與它有關的屬性往往都是幾十個,幾百個甚至成千上萬。而緩解維數災難的乙個重要途徑是降維,常用的降維德方法有:

(1)、主成分分析

(2)、度量學習(流行學習)------對距離度量進行學習。

3、機器學習演算法

根據訓練資料是否擁有標記資訊,學習任務可大致劃分為兩大類:」監督學習「和」無監督學習「。

決策樹、線性模型、貝葉斯、支援向量機都是屬於監督學習的。

聚類等屬於無監督學習。

4、模型評估

在模型評估中,一些效能度量,如錯誤率,風險率都是不同學習方法選擇與原理推導的方向標。

初學機器學習

配置太複雜 機器學習 權重w和偏執b。通過學習來修正 一次函式的例子 y w x b coding utf 8 基礎,乙個一次函式,y w x b import tensorflow as tf import matplotlib.pyplot as plt import numpy as np 定...

機器學習初學者筆記(一)

1 監督學習 給演算法乙個資料集,其中包括了正確的資料,然後演算法的 目的是找出更多的正確 值 2 回歸問題 目標是 乙個連續值輸出 3 分類問題 離散值輸出 4 無監督學習 給演算法無標籤或者相同標籤的資料集,然後利用演算法將其分簇 也可以看成是聚類演算法 5 學習步驟 首先有乙個訓練集,然後利用...

機器學習初學者筆記(二)

7 工作流程 輸入乙個x,然後通過學習演算法能夠輸出函式h,進而 y。這裡的函式h是假設函式是乙個引導x到y的函式。8 如何決定函式h?通過利用代價函式。若有訓練集以及乙個函式 9 如何確定代價函式的最小值對應的梯度下降法 梯度下降法的思想是 開始時隨機給定乙個引數的組合 梯度下降法的公式為 對於這...