增強學習 K 搖臂賭博機

2022-08-12 14:00:13 字數 547 閱讀 9792

探索與利用

增強學習任務的最終獎賞是在多步動作之後才能觀察到,於是我們先考慮最簡單的情形:最大化單步獎賞,即僅考慮一步操作。不過,就算這樣,強化學習仍與監督學習有顯著不同,因為機器要通過嘗試來發現各個動作產生的結果,而沒有訓練資料告訴機器應當做什麼動作。簡而言之:缺少標記;

想最大化單步獎賞要考慮兩個方面:一是需要知道每個動作帶來的獎賞,而是要執行獎賞最大的動作。

實際上,單步強化學習任務對應了乙個理論模型,即「k-搖臂賭博機」。什麼是搖臂賭博機,就是,如圖所示,賭徒投入乙個硬幣後,選擇乙個搖桿,每個搖桿有一定的概率吐出硬幣,這個概率賭徒並不知道。賭徒的目標就是通過找到乙個策略來使自己在等量成本下,收益最大。

那麼,假設賭徒有100個硬幣做成本,那他可以有兩個選擇,一是「僅探索」,就是說,把100個硬幣均勻的投入到5個搖臂中,來探索每個搖臂吐出硬幣的累計金額,從而得出哪個搖桿最優;乙個是「僅利用」,就是說,把100個硬幣投入到目前平均獎賞最優的那個搖桿中(多個最優則隨機選乙個)。顯然,這兩種都有缺陷,想獲得最優的平均獎賞,就是要找到二者的平衡。

於是引入兩種演算法,貪心法和softmax演算法。

強化學習 K 搖臂賭博機演算法

有k個賭博機,每個賭博機有一定概率p吐出硬幣,但是我們不知道這個概率是多少,每個賭博機吐出的硬幣價值v也是不一樣的,現在有t次機會選擇賭博機,怎麼選才能使得到的硬幣總價值最大?在下面的不同演算法實現中,統一設定 可以計算出,這種情況下 如果每次都選期望價值最高的4號賭博機,可以獲得的最高總價值為28...

C語言賭博機擲骰子

乙個c語言寫的小遊戲 賭博機,適合學習c語言的人學習借鑑。a c language to write a small game gambling machines,suitable for learning c language people learn.下面介紹賭博規則 莊家 及賭場老闆 和玩家 ...

強化學習學習筆記(第二章,多臂賭博機)

本章節以多臂賭博機為模型,介紹了若干個在簡化環境下的強化學習演算法 動作不會影響下一時刻的情景和收益 1 貪心演算法,每次選擇期望收益最大的動作 2 貪心,在貪心演算法的基礎上,有 的概率從所有的動作中等概率選擇乙個。如果比較大可以更快的找到收益最大的動作,但是會影響選擇選擇收益最大動作的概率 0....