增強學習 K 搖臂賭博機

探索與利用

增強學習任務的最終獎賞是在多步動作之後才能觀察到，於是我們先考慮最簡單的情形：最大化單步獎賞，即僅考慮一步操作。不過，就算這樣，強化學習仍與監督學習有顯著不同，因為機器要通過嘗試來發現各個動作產生的結果，而沒有訓練資料告訴機器應當做什麼動作。簡而言之：缺少標記；

想最大化單步獎賞要考慮兩個方面：一是需要知道每個動作帶來的獎賞，而是要執行獎賞最大的動作。

實際上，單步強化學習任務對應了乙個理論模型，即「k-搖臂賭博機」。什麼是搖臂賭博機，就是，如圖所示，賭徒投入乙個硬幣後，選擇乙個搖桿，每個搖桿有一定的概率吐出硬幣，這個概率賭徒並不知道。賭徒的目標就是通過找到乙個策略來使自己在等量成本下，收益最大。

那麼，假設賭徒有100個硬幣做成本，那他可以有兩個選擇，一是「僅探索」，就是說，把100個硬幣均勻的投入到5個搖臂中，來探索每個搖臂吐出硬幣的累計金額，從而得出哪個搖桿最優；乙個是「僅利用」，就是說，把100個硬幣投入到目前平均獎賞最優的那個搖桿中（多個最優則隨機選乙個）。顯然，這兩種都有缺陷，想獲得最優的平均獎賞，就是要找到二者的平衡。

於是引入兩種演算法，貪心法和softmax演算法。

增強學習 K 搖臂賭博機

強化學習 K 搖臂賭博機演算法

C語言賭博機擲骰子

強化學習學習筆記（第二章，多臂賭博機）

增強學習 K 搖臂賭博機

強化學習 K 搖臂賭博機演算法

C語言賭博機擲骰子

強化學習學習筆記（第二章，多臂賭博機）

相關推薦