進化策略讓 AI 開掛，玩遊戲不斷給自己續命

強化學習會通過在系統中選擇一系列的行為，把分數提到最高水平。我們可以將這類技術運用於訓練一種可以打爆各種各樣遊戲的人工智慧，例如在 q bert 遊戲中，人工智慧每走一步，都要計算出合適的操作來控制這個橙色的游標，並在不碰到紫色敵人的情況下，點亮所有的立方體。

針對部分具有挑戰性的深度強化學習問題，比如雅達利遊戲，已經有研究表明，進化策略（evolution strategies）是強化學習的可行替代方案。本期**所提出的進化策略，目標不僅是訓練乙個** 而是並行訓練所有**，這種方法效率很高，就像大自然的進化那樣，優勝劣汰，表現最好的**產生新的後代。

open ai 最近的研究結果表明，比起深度強化學習的各種通用手段，自然進化策略也不失為一種好的替代手段。本期**使用的進化策略證明了，即便是年代久遠的進化策略，最後的成績也非常喜人。

更酷的是，在經過 5 個小時的訓練後，我們發現該演算法不僅能掌控遊戲，還能通過很多有創造性的方式完勝 q bert 中的機械人玩家。

當它下落犧牲自己來引誘紫點時，出了個小故障，令我們驚喜的是，當從這個位置下落的時候，它應該是丟一條命，但因為這是個 bug，所以沒有死掉。

厲害~ ai 給自己續命

還有乙個非常酷的技術就是為了等待對手它會在那個位置來回跳，然後突然跳到另外一條路徑上。

它發現並利用了另乙個很嚴重的 bug，據我所知這個 bug 以前從來沒有發生過，在完成第一階段後。它開始以一種看似隨機的方式在周圍跳躍。過了一會我們看到遊戲並沒有進入下個階段，那些方格開始閃爍，人工智慧可以想要多少分就拿多少分。

分數蹭蹭往**

通過進化策略，ai 可以輕輕鬆鬆搞定諸如像雅達利這樣的遊戲，甚至還能發現 bug，簡直是開了掛一般的存在。

原文發布時間為：2018-06-4

進化策略讓 AI 開掛，玩遊戲不斷給自己續命

優化演算法之進化策略

進化策略與進化規劃演算法 ES與EP

深度學習 AI的進化之匙

進化策略讓 AI 開掛，玩遊戲不斷給自己續命

優化演算法之進化策略

進化策略與進化規劃演算法 ES與EP

深度學習 AI的進化之匙

相關推薦