統計學習方法 統計學習基礎(一)

2021-09-12 11:54:50 字數 1502 閱讀 5703

監督學習

統計學習的三要素

模型評估與模型選擇(一)

統計學習的特點

以方法為中心

目標是對資料進行**與分析

統計學習的方法

可以總結出統計學習的三要素:模型、策略和演算法。

監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入能做出乙個好的**。

基本概念

假設空間:模型屬於由輸入空間到輸出空間的對映的集合,這個集合就是假設空間,記為f

\mathcal

f。f

=\mathcal=\left\

f=此時a

\mathcal

a通常是由乙個引數向量決定的函式族:

f

=\mathcal=\left\

f=引數向量θ

\theta

θ取值於n

nn維歐氏空間r

nr^n

rn,稱為引數空間。

監督學習的模型:可以是概率模型或非概率模型,由條件概率分布p(y

∣x)p(y|x)

p(y∣x)

或決策函式y=f

(x)y=f(x)

y=f(x)

表示。

問題形式化

通過乙個簡單的圖展示監督學習的過程:

方法=模型+策略+演算法 模型

策略風險函式:

經驗風險最小化與結構風險最小化

演算法在確定了訓練資料集、學習策略並從假設空間中選擇最有模型的基礎上,需要考慮使用什麼演算法求解最優模型。

訓練誤差與測試誤差

假設學習得到的演算法是y=f

^(x)

y=\hat f(x)

y=f^​(

x)

過擬合、欠擬合與模型選擇

模型的選擇應該是以真實情況作為依據,也就是逼近所謂的「真模型」,而不應該只追求模型在訓練集上的表現效果。 當m=

0m=0

m=0時,完全就是一條與x

xx軸平行的直線,並沒有學習到什麼有用得資訊;

當m =1

m=1m=

1時,直線發生了一定的傾斜,但其實也與「真模型」相差甚遠,此時仍處於「欠擬合」的狀態。

當m =9

m=9m=

9時,影象經過了所有已知點,但是影象非常複雜且偏離「真模型」,可以想象其用來**也會導致很差得結果。

下圖也給出了隨著模型複雜度的變化,訓練誤差與測試誤差的變化情況。

參考文獻

統計學習方法 統計學習的分類

首先簡單介紹一下統計學習 統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 和分析的一門學科。其可以理解為計算機系統通過運用資料及統計方法提高系統效能的機器學習。現在我們談論的機器學習,往往就是統計機器學習。下面進入正文 概率模型和非概率模型的本質區別就是其內在結構是否可以表示成聯合...

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

感知機演算法 統計學習方法

from sklearn.linear model import perceptron import numpy as np 訓練的資料集 x train 3,3 4 3 1,1 y np.array 1 1,1 構建物件 perceptron perceptron 引數 penalty 正則化項 ...