進化策略讓 AI 開掛,玩遊戲不斷給自己續命

2021-09-20 10:57:49 字數 1072 閱讀 1900

強化學習會通過在系統中選擇一系列的行為,把分數提到最高水平。我們可以將這類技術運用於訓練一種可以打爆各種各樣遊戲的人工智慧,例如在 q bert 遊戲中,人工智慧每走一步,都要計算出合適的操作來控制這個橙色的游標,並在不碰到紫色敵人的情況下,點亮所有的立方體。

針對部分具有挑戰性的深度強化學習問題,比如雅達利遊戲,已經有研究表明,進化策略(evolution strategies)是強化學習的可行替代方案。本期**所提出的進化策略,目標不僅是訓練乙個** 而是並行訓練所有**,這種方法效率很高,就像大自然的進化那樣,優勝劣汰,表現最好的**產生新的後代。

open ai 最近的研究結果表明,比起深度強化學習的各種通用手段,自然進化策略也不失為一種好的替代手段。本期**使用的進化策略證明了,即便是年代久遠的進化策略,最後的成績也非常喜人。

更酷的是,在經過 5 個小時的訓練後,我們發現該演算法不僅能掌控遊戲,還能通過很多有創造性的方式完勝 q bert 中的機械人玩家。

當它下落犧牲自己來引誘紫點時,出了個小故障,令我們驚喜的是,當從這個位置下落的時候,它應該是丟一條命,但因為這是個 bug,所以沒有死掉。

厲害~ ai 給自己續命

還有乙個非常酷的技術就是為了等待對手它會在那個位置來回跳,然後突然跳到另外一條路徑上。

它發現並利用了另乙個很嚴重的 bug,據我所知這個 bug 以前從來沒有發生過,在完成第一階段後。它開始以一種看似隨機的方式在周圍跳躍。過了一會 我們看到遊戲並沒有進入下個階段,那些方格開始閃爍,人工智慧可以想要多少分就拿多少分。

分數蹭蹭往**

通過進化策略,ai 可以輕輕鬆鬆搞定諸如像雅達利這樣的遊戲,甚至還能發現 bug,簡直是開了掛一般的存在。

原文發布時間為:2018-06-4

優化演算法之進化策略

clear all clc close all 進化策略解決旅行商問題 t0 clock n 10 初始種群規模 c 1,2 70,90 80,60 10,100 800,200 800,100 90,80 200,600 230,4 500,90 城市座標 m size c,1 城市個數 for ...

進化策略與進化規劃演算法 ES與EP

github 智慧型演算法的課件和參考資料以及實驗 進化策略和遺傳演算法統稱為進化演算法,二者的思想很類似,但步驟和應用方向有所差別。我們舉個二元函式最大值優化問題,分別用這兩種演算法簡單搜尋最優值 用matlab實現 es f2.m function y f2 x1,x2 二元函式求最大值的優化問...

深度學習 AI的進化之匙

10月19日,英國 自然 雜誌發表 報道,一款新版的 阿爾法狗 alphago 電腦程式能夠從空白狀態起,在不需要任何人類輸入的條件下,無師自通,自學成才。近日,阿爾法狗的新一代 alphago zero,在沒有任何外在輸入棋譜的情況下 通過三天自習輕鬆擊敗了它的前輩。這則新聞引起了又一輪對人工智慧...