人機大戰之AlphaGo的硬體配置和演算法研究

最近alphago與李世石的比賽如火如荼，關於第四盤李世石神之一手不在我們的討論範圍之內。我們重點討論下alphago的硬體配置：

alphago有多個版本，其中最強的是分布式版本的alphago。根據deepmind員工發表在2023年1月nature期刊的**，分布式版本（alphago distributed）使用了1202個cpu和176個gpu，同時可以有40個搜素執行緒。

維基百科上有各種版本的alphago硬體配置：

最後一列是等級分，代表了**送審時（2023年11月）的水平。

下面是2023年3月14日goratings 發布的全球等級分列表，alphago也被列在其中，排在第四位，可以看見各個版本alphago的實力。

硬體配置google官方沒有給出明確說明，根據各方報道跟李世石對戰的應該是最強的兩個分布式「阿法狗」之一：

-（1920 cpus ＋ 280 gpus，同時有64個搜尋執行緒）

-（1202 cpus ＋ 176 gpus，同時有40個搜尋執行緒）

有twitter網友作圖：

從這個角度來看南韓人**比賽時間對於李世石不公平，也是可以理解的。

本文嘗試用最簡單的方法來講述alphago的演算法，了解alphago是如何下棋的。

alphago的技術總體架構如果一句話總結的話就是：深度cnn神經網路架構結合蒙特卡洛搜尋樹（monte carlo tree search）。

深度學習神經網路訓練出兩個落子策略和乙個局面評估模型，這三個策略的神經網路架構基本相同，這是引數不同而已。

兩個落子策略：sl（supervised-learning policy network），rl（reinforcement learning policy network）。

落子策略sl是通過學習人類對弈棋局，來模擬給定當前棋局局面，人如何落子的思路，這是純粹的學習人類下棋經驗，它的學習目標是：給定某個棋局形式，人會怎麼落子?那麼alphago通過人類對弈棋局來學習這些落子策略，也就是說sl策略學習到的是像人一樣來下下一步棋。

(數字表示人類棋手會下在該地方的可能性)

落子策略rl是通過alphago自己和自己下棋來學習的，是在sl落子策略基礎上的改進模型，rl策略的初始引數就是sl落子策略學習到的引數，就是它是以sl落子策略作為學習起點的，然後通過自己和自己下棋，要進化出更好的自己，它的學習目標是：不像sl落子策略那樣只是學習下一步怎麼走，而是要兩個alphago不斷落子，直到決出某盤棋局的勝負，然後根據勝負情況調整rl策略的引數，使得rl學習到如何能夠找到贏棋的一系列前後聯絡的當前棋局及對應落子，就是它的學習目標是贏得整盤棋，而不是像sl策略那樣僅僅**下乙個落子。

局面評估網路（position evaluator value network）採用類似的深度學習網路結構，只不過它不是學習怎麼落子，而是給定某個棋局盤面，學習從這個盤面出發，最後能夠贏棋的勝率有多高，所以它的輸入是某個棋局盤面，通過學習輸出乙個分值，這個分值越高代表從這個棋盤出發，那麼贏棋的可能性有多大。

(局面評估是怎麼看這個棋盤的。深藍色表示下一步有利於贏棋的位置)

有了上面的三個深度學習策略，alphago把這三個策略引入到蒙特卡洛搜尋樹中，所以它的總體架構還是蒙特卡洛搜尋樹，只是在應用蒙特卡洛搜尋樹的時候在幾個步驟整合了深度學習學到的落子策略及盤面評估。

在alphago與李世石的第四局中，李下出78手神之一手的時候，google deepmind 的 hassabis 是這樣說的：

簡單來說就是狗沒有及時認知到78的威脅，直到到87手才發現勝率**。這個說明狗在好幾步後都不知道自己已經不妙了，計算結果裡沒有後來的發展。

這不是狗的bug，是標準的多算勝少算，這應該不算是bug而是value network和policy network還有待完善。

參考文獻：

人機大戰之AlphaGo的硬體配置和演算法研究

人機大戰之AlphaGo的硬體配置和演算法研究

Alphago再下一城，人機大戰能告訴我們什麼？

AlphaGo戰敗柯潔後，人機大戰再無意義

人機大戰之AlphaGo的硬體配置和演算法研究

人機大戰之AlphaGo的硬體配置和演算法研究

Alphago再下一城，人機大戰能告訴我們什麼？

AlphaGo戰敗柯潔後，人機大戰再無意義

相關推薦