AI單挑Dota 2世界冠軍 被電腦虐哭

2021-09-07 14:16:07 字數 2100 閱讀 4626

openai的機械人剛剛在 dota2 1v1 比賽中戰勝了人類頂級職業玩家 denti。以建設安全的通用人工智慧為己任的 openai,通過「self-play」的方式,從零開始訓練出了這個機械人。

繼橫掃頂級的人類西洋棋大師和圍棋大師後,計算機如今在風靡全球的電子遊戲dota2中戰勝了世界級的職業玩家。此前未被披露的此場對決發生於valve獎金高達2400萬美元的dota2國際邀請賽「the international」。

dendi(圖左)在賽前與 openai 的 gregbrockman(圖右)交談

在這場一對一的對戰中,openai設計的一款機械人擊敗了職業玩家danylo「dendi」ishutin,dendi在此前的職業生涯中已贏得累計735449.4美元的獎金。openai的機械人在首場對戰中用時十分鐘擊敗了dendi,之後dendi在第二局對戰中退出並拒絕再戰第三局。

「請放過我吧,」賽間dendi對機械人對手這樣說道。

openai在電子競技領域首度擊敗人類頂級玩家。這比西洋棋及圍棋等遊戲要複雜得多。

openai的cto greg brockman在賽前介紹稱這一款機械人通過數千次的加以指導的自我對決進行訓練,並稱該機械人已經擊敗了數個dota2的職業玩家。brockman在部落格中稱:「過去幾周內,我們的機械人已經戰勝過包括sumail(世界頂級1v1選手)及arteezy(世界頂級overall選手)等多個頂級玩家」。

「自我對決」的理念是openai研發的關鍵。這是一種ai系統學習解決極其複雜任務的有效方法:與太弱或太強的對手對戰,它都無法從中學到東西,但自身反倒是有價值的對手。brockman介紹道:「你可以看到ai從完全的隨機狀態一步步發展到如今的頂級水平」。

ai公司慣常用電子競技遊戲來測試他們的技術,如谷歌的deepmind攻克「星際2」,微軟的ai團隊今日則宣稱他們在吃豆人遊戲中獲取高分。

openai並未打算就此停止征戰的腳步。他們希望在明年的參與正式的五對五比賽。與此同時他們也對外發布了此機械人,所以任何人有興趣均可與之對戰。第乙個擊敗此機械人的玩家則可獲得valve專設的賞金。

我們創造了在dota21v1比賽中能夠擊敗世界頂尖職業選手的ai。其完全是用self-play的方式訓練,沒有使用模仿學習(imitation learning)或樹搜尋。這對構建在混亂、包含人類行為在內的複雜場景下能夠完成well-defined goals的ai系統是重要一步。

dota1v1是含有隱藏資訊的複雜遊戲。**需要學習計畫、進攻、花招以及誤導對手。選手技巧和手速(每分鐘動作)的關聯不那麼強烈,實際上,我們的ai「手速」只是一般人類選手的水平。

完全通過self-play的方式訓練,從零達到世界頂級水平

openai的目標是建設安全的通用人工智慧。對於ai來說,dota是乙個非常理想的試驗場,競爭激烈,遊戲複雜。如果想在這門遊戲中獲得成就,就必須推進現有技術,實現技術突破。我們現在開發了乙個ai,能夠在dota的1v1比賽中擊敗頂尖職業選手。  

dota的規則非常複雜,如果是用規則方法,那麼構建出的ai一定是個蹩腳的player。所以,我們完全採用的是自我遊戲(self-play)的訓練方法。剛開始訓練時,ai對於自己所處的世界全無認識,而只是和自己的copy比賽,這也就意味著它和它的對手永遠是旗鼓相當的。它用這個方法一點點地提公升,直到達到了世界上最優秀的職業運動員的水平。theinternational(ti)是dota的世界錦標賽,吸引了世界各地20000名觀眾來**職業運動員爭奪2400萬獎金。在ti上,我們派出ai和其中的多位高手進行了比賽,在比賽中,ai展現出了很強的魯棒性和技巧,許多職業選手希望能持續和我們的ai比賽,並考慮要把它當做是一種訓練手段。

不過呢, 以上ai技術都是被動ai, 什麼時候主動ai出現了的話, 人類就該關進動物園了 ~

自我意識的ai遲早將統治地球 ~~
更多訪問here

AI單挑Dota 2世界冠軍 被電腦虐哭

openai的機械人剛剛在 dota2 1v1 比賽中戰勝了人類頂級職業玩家 denti。以建設安全的通用人工智慧為己任的 openai,通過 self play 的方式,從零開始訓練出了這個機械人。繼橫掃頂級的人類西洋棋大師和圍棋大師後,計算機如今在風靡全球的電子遊戲dota2中戰勝了世界級的職業...

AI如何在DOTA2中戰勝職業選手?

電子科技大學 格拉斯哥學院 2017級 郭世承 openai利用迴圈神經網路 rnn 中的長短期記憶 lstm 來構建了ai的大腦核心。它精通長時間的資訊儲存記憶以及會自動根據序列進行分類處理和 資料。其實簡單來說本質就和家長教自己的孩子如何做一些簡單的事情一樣,你得教他們分清楚不同事物的好壞,而且...

單一世界 2 報文介面

報文在所有的cs架構中,是很重要的基礎。因此,在所有工作開展之前,有必要先對報文進行分析。作為乙個通用的伺服器,那麼他的報文格式必須受標準 約束,在靈活性跟可擴充套件性方便是很重要的考慮因素,而對具體的業務規則反而不能深入的介入。魔獸世界的報文具有他本身私有的業務規則,單一世界是為網遊戲 設計的,所...