機器學習知識點三十五蒙特卡羅方法

強化學習中免模型學習採用蒙特卡羅方法去逼近最優解，那這種取樣原理是怎樣的呢？

1、蒙特卡羅思想

是一類隨機方法的統稱。這類方法的特點是，可以在隨機取樣上計算得到近似結果，隨著取樣的增多，得到的結果是正確結果的概率逐漸加大，但在（放棄隨機取樣，而採用類似全取樣這樣的確定性方法）獲得真正的結果之前，無法知道目前得到的結果是不是真正的結果。

和拉斯維加斯演算法相比，經典的描述就是：

蒙特卡羅演算法：取樣越多，越近似最優解；盡量找好的，但不保證是最好的。

拉斯維加斯演算法：取樣越多，越有機會找到最優解；盡量找最好的，但不保證能找到。

這是一種取樣隨機的演算法或原理。誕生於上個世紀40年代美國的"曼哈頓計畫"，名字**於賭城蒙特卡羅，象徵概率。近似或逼近，插值等等概念不外如是。

2、蒙特卡羅數學定義

3、借案例理解-π的計算

蒙特卡羅演算法表示取樣越多，越近似最優解。舉個例子，假如筐裡有100個蘋果，讓我每次閉眼拿1個，挑出最大的。於是我隨機拿1個，再隨機拿1個跟它比，留下大的，再隨機拿1個……我每拿一次，留下的蘋果都至少不比上次的小。拿的次數越多，挑出的蘋果就越大，但我除非拿100次，否則無法肯定挑出了最大的。這個挑蘋果的演算法，就屬於蒙特卡羅演算法。告訴我們樣本容量足夠大，則最接近所要求解的概率。

如何用蒙特卡羅方法計算圓周率π。

正方形內部有乙個相切的圓，它們的面積之比是π/4。

現在，在這個正方形內部，隨機產生10000個點（即10000個座標對 (x, y)），計算它們與中心點的距離，從而判斷是否落在圓的內部。

如果這些點均勻分布，那麼圓內的點應該佔到所有點的 π/4，因此將這個比值乘以4，就是π的值。通過r語言指令碼隨機模擬30000個點，π的估算值與真實值相差0.07%。

機器學習知識點 三十五 蒙特卡羅方法

機器學習知識點

機器學習知識點

機器學習相關知識點

相關推薦

機器學習知識點三十五蒙特卡羅方法