統計學習方法讀書筆記(1)

2022-05-30 03:57:15 字數 1024 閱讀 6507

1.監督學習:對任意給定輸入,對其相應的輸出做乙個好的**。

2.回歸問題:輸入變數與輸出變數都為連續變數的**問題。

​ 分類問題:輸入變數為有限個離散變數的**問題。

​ 標註問題:輸入輸出變數均為變數序列的**問題。

3.概率模型: 由條件概率分布p(y|x)表示

​ 非概率模型:由決策函式y= f(x)表示

4.統計學習三要素:

​ (1)模型:概率模型or非概率模型

​ (2)策略:學習或選擇最優的模型,如何度量?損失函式度量模型一次**的好壞,風險函式度量平均意義下模型**的好壞。度量結果不理想?經驗風險最小化和結構風險最小化(加入正則項防止過擬合)。

​ (3)演算法:即最優化問題,分為全域性最優和區域性最優。

5.訓練誤差和測試誤差:看是對訓練資料集還是測試資料集計算平均損失。

7.交叉驗證:資料不充足時,把給定的資料進行切分來重複使用資料,反覆地進行訓練,測試以及模型選擇。包括簡單交叉驗證,s折交叉驗證,留一交叉驗證。

8.泛化能力:學習到的模型對未知資料的**能力。

​ 泛化誤差:

9.生成模型:由資料學習聯合概率密度分布p(x,y),然後求出條件概率分布p(y|x)作為**的模型,即生成模型:p(y|x)= p(x,y)/ p(x)。基本思想是首先建立樣本的聯合概率概率密度模型p(x,y),然後再得到後驗概率p(y|x),再利用它進行分類,就像上面說的那樣。

​ 判別模型:由資料直接學習決策函式y=f(x)或者條件概率分布p(y|x)作為**的模型,即判別模型。基本思想是有限樣本條件下建立判別函式,不考慮樣本的產生模型,直接研究**模型。典型的判別模型包括k近鄰,感知級,決策樹,支援向量機等。

10.分類問題:k近鄰法,感知機,樸素貝葉斯,決策樹,邏輯斯諦回歸,支援向量機,提公升方法,em演算法,隱馬爾科夫模型,貝葉斯網路,神經網路。

11.標註問題:輸入觀測序列,輸出乙個標記序列或狀態序列。

12.回歸問題:選擇一條函式曲線很好的擬合已知資料和**未知資料。最常用的損失函式為平方損失函式,可由最小二乘法求解。

統計學習方法讀書筆記

感知機 perceptron 沒啥說的,感知機就是尋找乙個將空間分為兩部分的超平面 前提可分 學習過程既是損失函式極小化的過程。模型 啟用函式 損失函式 推導 首先考慮任意一點x0到超平面的距離 對於誤分類點 xi,yi 來說 所以誤分類點到超平面的總距離 損失函式 損失函式極小化 簡單的梯度下降即...

統計學習方法讀書筆記 knn

看李航老師統計學習方法時的筆記。其實書上寫的已經非常易懂了,但是為了自己記憶,姑且寫個筆記,個別地方是自己的理解,可能有偏差。knn是由cover和hort在1967年提出的分類和回歸方法 監督學習的 它是乙個機遇距離的機器學習演算法,因此更多地適用於數值型的資料集 用jarccard相似度倒也可以...

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...