Machine learning中的常見名詞解釋

模型是通過演算法將已有的資料訓練得到的結果，機器學習的主要內容是在計算機上從資料中產生「模型」的演算法。有了模型，可以就新的情況提供判斷。

從資料中學的模型的過程稱為「learning」 or 「training」，這個過程通過執行某個演算法來完成。

根據訓練資料是否擁有標記資訊，學習任務可大致分為兩大類：監督學習（supervised learning）和非監督學習（unsupervised learning）分類(clalssification)和回歸(regression)是前者的代表，聚類（clustering）是後者的代表。

過擬合是由於模型在學習過程中將訓練樣本自身的一些特點當做了所有樣本都會具有的一般性質，就回導致泛化效能的下降，這樣的模型往往在訓練樣本上擬合的很好，而在測試集或實際情況中的錯誤率較高，稱之為過擬合。過擬合是機器學習面臨的關鍵障礙。解決過擬合的方法有：1，更多的訓練資料；2，特徵選擇；3，正則化。

相對應的欠擬合是指對訓練樣本的一般性質尚未學好。

多數機器學習演算法都有些引數需要設定，引數配置的不同，學得模型的效能往往有很大的差別，調參和演算法選擇沒有什麼本質的區別，對於每種引數配置都訓練出模型，然後把對應最好模型的引數作為結果，學習演算法的引數是在實數範圍內取值，對每種引數都訓練出模型是不可行的，因此，對每個引數選定乙個範圍和變化步長（類似於希爾排序的增量）。顯然，這樣得到的引數值往往不是最佳值，

需要注意的是，通常訓練模型要留出一部分資料做測試集，在模型選擇完成後，學習演算法和引數設定已選定，此時應該用整個資料集重新訓練模型，這個模型在訓練過程中使用了所有樣本，才是最終提交給使用者的模型。

二分類問題中的查準率和查全率

你打槍打10次，你可以得到乙個平均值，比如是8.那麼總體的期望是不是就是8呢？你要說是，那就太草率了吧，因為你再打10次可能就是7了，那麼總體的期望就變成7了嘛？當然不是，總體的期望是客觀存在不會變的。實際上均值等於期望的概率是0啊，所以說，以點估點是不準確的。但是既然樣本是從總體中抽出來的，那麼樣本的均值和總體的期望應該差的不遠吧？你射擊的均值是8，總體的期望總不能是1吧？所以，你若換句話說打槍的平均環數是[6,8]，那麼相信的人就會很多了。可見，雖然擴大了總體均值的取值範圍，但是可信度明顯高了。

當然你不能簡單無限度擴大區間範圍，畢竟統計也要講究一定的精度。所以咱就有了置信度，也就是說，你測得的均值，和總體真實情況的差距小於這個給定的值的概率，說你測得的均值就是總體期望是很草率的，但是說，我有95%的把握認為我測得的均值，非常接近總體的期望了，聽起來就靠譜的多。

平時我們常說的95%置信度到底是什麼意思呢？

要理解置信度，就要理解好置信區間。要理解置信區間，就要從統計學最基本最核心的思想去思考，那就是用樣本估計總體。在統計學中，非常容易把概念模糊化，很容易把95%置信區間理解成為在這個區間內有95%的概率包含真值。

但是這裡有兩個容易混淆的地方

1.真值指得是樣本引數還是總體引數？這個問題的答案是總體引數，我們取的資料是樣本資料，點估計是樣本引數的真實值，我們要估計總體引數。

2.95%的概率，變動的是誰？這裡95%的概率，變動的是置信區間。

錯誤理解：假如有100個考生，100個學生中有95個考分落在（70,80）這個區間內。這就是95%置信度。

這是非常錯誤的理解，樣本與總體的關係沒有思考清楚。置信區間是估測總體引數的真值，這個值只有乙個，且不會變動。

那正確的應該怎麼理解呢？

樣本數目不變的情況下，做一百次試驗，有95個置信區間包含了總體真值。置信度為95%。換言之，若擴大樣本容量，考100次試，這100名學生的成績組成改的區間有95次包含了總體真正的均值，那這才是95%置信度。即有95%的把握說總體的真值在這個區間內。

Machine learning中的常見名詞解釋

Machine Learning 梯度下降

安裝Machine Learning環境

機器學習（Machine Learning）

Machine learning中的常見名詞解釋

Machine Learning 梯度下降

安裝Machine Learning環境

機器學習（Machine Learning）

相關推薦