統計學習方法 第一章統計學習方法概論

2021-09-11 10:46:35 字數 942 閱讀 6783

1. 統計學習的方法是基於資料構建統計模型從而對資料進行**與分析。統計學習由監督學習,非監督學習,半監督學習和強化學習等組成。

2. 輸入變數和輸出變數都是連續變數,稱為回歸問題;輸出變數為有限個離散變數的**問題為分類問題;

輸入變數和輸出變數均為變數序列的**問題稱為標註問題。

3. 統計學習常用的損失函式 0-1損失函式,平方損失函式,絕對損失函式,對數損失函式;

大數定律:概率是頻率的穩定值,頻率依概率收斂於概率。強大數定律:依概率1收斂;弱大數定律:依概率收斂。

中心極限定理是說:樣本的平均值約等於總體的平均值;

不管總體是什麼分布,任意乙個總體的樣本平均值都會圍繞在總體的整體平均值周圍,並且呈正態分佈。中心極限定理的作用:在沒有辦法得到總體全部資料的情況下,我們可以用樣本來估計總體;根據總體的平均值和標準差,判斷某個樣本是否屬於總體

4. 正則化項一般是模型複雜度的單調遞增函式,如模型引數向量的範數。

奧卡姆剃刀原理:如無必要,勿增實體。

5.交叉驗證:簡單交叉驗證,s-折交叉驗證,留一交叉驗證。

6. 生成模型:學習得到聯合概率p(x,y),然後求條件概率。

代表:樸素貝葉斯,混合高斯模型,隱馬爾可夫模型

判別模型:學習得到條件概率分布p(y|x),即在特徵x出現的情況下標記y出現的概率。

優點:需要樣本少,準確率高,不需要求解條件概率,允許對輸入進行抽象,降維等。缺點:沒有生成模型的那些優點

代表:感知機,knn,決策樹,邏輯回歸,最大熵模型,支援向量機,boosting方法,條件隨機場,cnn

資料要求:生成模型需要的資料量比較大,能夠較好地估計概率密度;而判別模型對資料樣本量的要求沒有那麼多。

二分類的常見評價指標:精確率和召回率。f1是精確率和召回率的調和平均。

統計學習方法筆記 第一章統計學習方法概論

統計學習方法第一章筆記 赫爾伯特 西蒙曾經對學習下定義 如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。現在人們提到的機器學習就是統計機器學習。統計學習包括監督學習 supervised learning 非監督學習 unsupervisedlearning 半監督學習 semi supe...

統計學習方法 第一章

1.統計學習的特點 2.統計學習的物件 對資料的基本假設 同類資料具有一定的統計規律性 3.統計學習的目的 4.統計學習方法 1.基本概念 x x 1,x 2,x i x n t x i x i 1 x i 2 x in t t x 1 y 1 x 2 y 2 x n y n 2.聯合概率分布 3....

統計學習方法第一章

1.numpy.poly1d 1,2,3 import numpy as np np.poly1d 1 2,3 poly1d 1 2,3 r np.poly1d 1 2,3 print r 1 62.from scipy.optimize import leastsq 表示scipy.optimiz...