AlphaGo zero 概述和引言翻譯

2021-08-10 01:19:21 字數 1282 閱讀 9264

人工智慧的乙個長期目標是可以學習到在具有挑戰領域超越人類的演算法,最近,阿爾法圍棋成為第乙個在圍棋遊戲中擊敗世界冠軍的程式。在阿爾法圍棋的樹搜尋中,使用深度神經網路來評估當前形勢和選擇落子位置。這些神經網路由人類專家的棋譜指導學習訓練,並通過自我博弈來強化學習。在這裡,我們引入了一種沒有使用人類的資料、指導或超越遊戲規則的領域知識,只基於強化學習的演算法。阿爾法圍棋成為了自己的老師:乙個神經網路被訓練來**阿爾法圍棋自己的落子選擇和阿爾法圍棋遊戲最後的贏家。這種神經網路提高了樹搜尋的強度,從而提高了在下一次迭代中落子選擇的質量和自我博弈的能力。我們的新專案「阿爾法圍棋零「取得了超人類的成績,以100比0戰勝了此前公布的冠軍阿爾法圍棋。

在人工智慧方面取得了很大的進展,這些人工智慧的學習系統使用監督學習來轉殖人類專家的決策。然而,專家標定資料集通常是昂貴的、不可靠的或根本不可得到的。即使有可靠的資料集可用,他們也可能會對在這種利用人類經驗訓練的系統的效能施加乙個上限。相比之下,強化學習系統是根據自身經驗進行訓練的,原則上允許它們超越人類能力,並在缺乏人類專家的領域進行操作。最近,通過強化學習訓練的深度神經網路取得了快速的進展。這些系統在電腦遊戲中表現優於人類,比如雅達利和3d虛擬環境。然而,最具挑戰性的領域——比如圍棋——被廣泛認為是人工智慧的重大挑戰——在廣闊的圍棋搜尋空間中,需要乙個精確而複雜的**。在這些領域中,傳統的方法以前都沒有達到人類水平。阿爾法圍棋是第乙個在圍棋中獲得超人效能的程式。2023年10月,我們稱其為「阿爾法圍棋樊」的版本,擊敗了歐洲冠軍樊麾。阿爾法圍棋樊使用了兩個深度神經網路:乙個輸出落子概率的策略網路,乙個輸出形勢評估的價值網路。該策略網路最初是使用監督學習,來準確**人類專家的行動,隨後被策略梯度強化學習所完善。價值網路被訓練來**策略網路對自己博弈的遊戲贏家的**。一旦訓練完成,這些網路結合蒙特卡洛樹搜尋來提供有前瞻性的搜尋,利用策略網路來縮小搜尋空間來得到高概率的落子,和使用價值網路(結合蒙特卡洛的走子中使用抽到快速走子策略)來評估在蒙特卡洛樹中的位置。隨後的版本,我們稱之為阿爾法圍棋李,使用了類似的方法(見方法),並在2023年3月擊敗了18次國際冠軍得主李世石。

我們的程式——阿爾法圍棋零,與阿爾法圍棋樊及阿爾法圍棋李在幾個核心的方面有所不同。首先也是最重要的,它是從隨機下棋開始,通過自我博弈強化學習訓練,沒有任何監督或使用人類資料。其次,它只使用在棋盤上的黑子和白子作為輸入特徵。第三,它使用乙個單獨的神經網路,而不是把策略網路和價值網路分開。最後,它使用一種更簡單的樹搜尋,並依賴於這個單一的神經網路來評估形勢和走子,但不執行任何蒙特卡羅輸出。為了實現這些結果,我們引入了一種新的強化學習演算法,在訓練迴圈中加入了前瞻搜尋,從而得到了快速的效能提公升和精確而穩定的學習。在後面的方法一章,對搜尋演算法、訓練過程和網路結構等方面的技術細節,做了進一步的闡述。

windows 7 引導過程概述

from window 7 的核心版本號是 nt6.1 和 vista nt6.0 還是屬於乙個系列的,因此採用了一樣的啟動管理機制。對於雙系統來說,正如 98 和 xp 共存的雙系統一樣,xp 和 7 共存的算系統安裝也是要有先後順序的。因為windows 的啟動管理屬於向下相容,7 的可以相容 ...

原生JS offsetX和offsetY引起抖動

在模仿 放大鏡效果時,發現mask層一直抖動,紅色方框新增了onmousemove事件,內部用到了offsetx 最後解決方案是給mask新增css屬性 pointer events none 原本我是想讓outer作為參考係獲得offsetx和offsety的值,所以把onmousemove事件響...

MySQL中MyISAM和InnoDB引擎的區別

區別 1.innodb支援事務,myisam不支援,對於innodb每一條sql語言都預設封裝成事務,自動提交,這樣會影響速度,所以最好把多條sql語言放在begin和commit之間,組成乙個事務 2.innodb支援外來鍵,而myisam不支援。對乙個包含外來鍵的innodb表轉為myisam會...