統計機器學習 1 統計機器學習基礎

2021-09-20 00:17:59 字數 1392 閱讀 1976

網路 演算法 機器 優化 概率 統計

資料 矩陣 資訊 模型 推理

獲知識 靠學習

we are drowning in information and starving for knowledge. -john naisbitt

data -> model -> knowledge

mlstatistics

備註networks

graphs models

網路、圖/模型

weights

parameters

權重/引數

learning fitting or estimating

學習/擬合、估計

generalization 泛化 test set

可信度superised learning

regression/classification

回歸 分類

unsuperised learning

density estimating clustering

聚類統計機器學習–sml:

a field that bridges computation and statistics, with ties to information theory,

signal processing,algorithm, control theory, and optimization theory。

sml = matrix +optimization+algorithm+statistics

矩陣+優化+演算法+統計,本質是乙個最優化問題

n個資料 每個資料有p個特徵

x = (

x11 x12 … x1p,

x21 x22 … x2p,

…xn1, xn2 … xnp

)x1 = (x11 x12 … x1p)

1.降維 x1^p --> x1^q 由p維降到q維

線性降維聚類

3.分類

binary

x1 -> input

x2 -> output

分類問題,資料分三類:

1.訓練集

training data

模型+引數

e(y–>f(x,a))+c p(b)

2.validation data

驗證資料估c

測試資料(只有輸入)

4.regression 回歸

y 屬於r

回歸是乙個特殊的分類問題

5.ranking

(xi,yi)

least square estimation 最小二乘估計

i->n (yi-xi*a)^2

最大似然估計

高斯分布

統計機器學習

統計機器學習方法的三要素為 模型 策略 演算法。模型 即所要學習的條件概率分布或決策函式。模型的假設空間包含了所有可能的條件概率分布或決策函式。策略 統計機器學習的目標在於從模型的假設空間中選取最優模型,那麼策略就是需要考慮選取什麼樣的準測來學習 選擇最優模型。具體的策略有 經驗風險最小化 結構風險...

機器學習的統計基礎

從總體抽取乙個樣本量為n的樣本 x1 x2,xn x1,x2,xn x1,x2,xn 後,為了將分散在樣本中的資訊集中起來,需要構造出不同的樣本函式t x 1,x2 x n t x1,x2,xn t x1,x2,xn 稱為統計量。統計量與樣本概念不同,它是關於樣本的函式,並不依賴於總體的未知引數。x...

機器學習 統計學習

機器學習 一種讓計算機利用資料而非指令來進行各種工作的方法。計算機使用輸入給他的資料,利用人類賦予的演算法,得到某種模型的過程,其結果是使用該模型,未知資料資訊。在統計理論下的本質 它追求的是合理的假設空間 模型在數學上的適合場合 的選取和模型的泛化能力 模型在未知資料上的表現能力 統計學習 sta...