機器學習入門基礎概念（1）

時隔兩年半，再次上我這個csdn賬號。最近正好複習機器學習考試，就把一些基本的機器學習概念在部落格記錄一下，就當複習了。

一些概念：

什麼是機器學習

1.什麼是機器學習？

機器學習就是計算機基於資料建立概率統計模型，並運用模型對資料進行**與分析的一門學科。

2.期望風險、經驗風險與結構風險

期望風險可以看為關於p(x,y)平均意義下的損失，機器學習的目標就是選擇期望風險最小的模型。但事實上p(x,y)我們是不知道的，如果知道的話我們就可以直接通過聯合概率推導出條件概率，也就不需要學習這一過程了。我們雖然不能得到期望風險，但可以基於資料集（訓練集部分）得到經驗風險，經驗風險就是關於資料集的平均損失。即每個樣本真實標籤與**標籤的損失除以資料集樣本數量。由此，模型學習的策略就是希望經驗風險最小。當資料量很大的時候，經驗風險趨近於期望風險。但是當資料量很小的時候，一直優化經驗風險離期望風險可能差距過大，會導致泛化誤差大或者說發生了過擬合。所以通過結構風險來解決這一問題。通過在經驗損失後加乙個正則化項來衡量模型的引數複雜度。這樣改進後的目標函式就可以應對過擬合。

3.生成模型與判別模型

有監督學習中可以將模型分為這麼兩大類，一類是生成模型，一類是判別模型。生成模型是基於資料的聯合概率分布，推導出條件概率分布。直接可以通過概率計算，得到特定輸入x生成y的關係。主要利用的就是條件概率公式：p(y|x)=p(x,y)/p(x)。主要的代表模型就是樸素貝葉斯判別以及隱馬爾科夫。

判別模型則是根據資料直接學習得到乙個決策函式或條件概率分布函式。關心的是對於特定輸入x，應該**什麼樣的輸出y。判別模型包括k鄰近演算法、感知機、決策樹等。

4.最大後驗

最大後驗簡單來說可以看作對於給定x，找到最大的p（y=ck|x）,得到相應的ck即為**結果。可以直接由期望風險最小出發，利用全概率公式得到每乙個y的條件概率乘期望風險求和，最終優化目標可以推導到取最大的p（y=ck|x）。

5.核函式

簡單來說就是用核方法將輸入空間對映到特徵空間。核函式代表一種對映。對於一些非線性問題，在輸入空間可能是線性的，但通過核函式對映到特徵空間可以表示為線性的。核函式就是這樣的乙個對映，具體在非線性svm中就有應用。

6.流形學習

將高維資料進行低維嵌入的過程，盡可能保留原有的流形結構。常見的流行學習演算法如lle。

機器學習入門基礎概念（1）

機器學習入門 1 基本概念

深度學習入門基礎概念（1）

機器學習基礎 1 基本概念

機器學習入門基礎概念（1）

機器學習入門 1 基本概念

深度學習入門基礎概念（1）

機器學習基礎 1 基本概念

相關推薦