機器學習和概率統計的關係

機器學習是乙個比較寬泛的概念，主要包括有監督學習，無監督學習，強化學習等，每個分類又有很多不同的演算法，在使用時需要根據不同的場景進行選擇，這個將會在後續的部落格中涉及，這裡就不展開敘述。現在的機器學習主要都是基於對現有樣本的觀測分析（統計）然後再對未知樣本的**（概率），我自己乙個不嚴謹的說法就是機器學習是一種特殊的概率統計表現形式。

概率與統計的水很深，我們不是為了學習概率與統計，而是為了進行機器學習而補充相關的概率統計知識，關鍵是打通概率與統計和機器學習的關係。概率統計根據是否已知整體進行區分：統計是已知乙個樣本的分布，並從中取樣若干樣本來計算分布的整體情況，如均值和方差等；概率是已知整體的情況，去**某一種情況發生的概率，統計和概率互為逆工程。

乙個有監督學習演算法，先要將帶有標籤的樣本特徵輸入到演算法模型中進行訓練，然後將標籤未知的樣本特徵餵給訓練好的演算法模型得到乙個輸出**。對帶有標籤樣本特徵進行訓練的過程就是我們統計的應用，就像對乙個裝有若干白球和黑球的桶我們進行多次的抓取取樣，並記錄我們取樣的結果，根據取樣的結果我們就可以估計出桶裡的黑球和白球的分布，均值和方差等資訊，這就是訓練過程（統計）；經過多次實驗（當n趨於無窮大的時候，就有了大數定理）我們就可以比較準確的統計出所有樣本的整體情況，有了對樣本整體分布感知的模型，當來乙個新的樣本特徵的時候，我就可以**這個樣本出現對應標籤發生的概率是多少，這就是有監督學習演算法，**和訓練與概率統計的關係。

1.有了對概率統計的了解，我們可以基於各個分布的特性來評估模型和樣本。對於樣本特徵分布非常相似的我們可以去掉其中某乙個特徵，對樣本特徵與標籤的分布完全不一致的，如果樣本特徵比較多可以考慮暫時去掉這一維度的特徵。

訓練，驗證，測試樣本希望是同分布的原因就是因為你在訓練的時候用按照訓練樣本就行統計的，如果**的時候樣本分佈發生變化，那**的結果可想而知。

統計估計的是分布，機器學習訓練出來的是模型，模型可能包含了很多分布。

機器學習和概率統計的關係

概率統計在機器學習中的作用

輕鬆搞定機器學習中的概率統計知識

概率統計與機器學習極大後驗概率以及正則化項

機器學習和概率統計的關係

概率統計在機器學習中的作用

輕鬆搞定機器學習中的概率統計知識

概率統計與機器學習 極大後驗概率以及正則化項

相關推薦

概率統計與機器學習極大後驗概率以及正則化項