alphago真的改變世界的技術嗎？

2023年，ibm的深藍系統擊敗了人類的西洋棋世界冠軍，garry kasparov。那時，這場勝利被認為是人工智慧的乙個里程碑。但是，結果證明，深藍的技術只在象棋領域有用，在其他領域並沒有什麼用。計算機技術並沒有迎來一場革命。

最近，alphago擊飛了一位實力強悍的人類選手，相比於上次，有不同嗎？

我相信答案是肯定的，但是原因可能不是你之前聽到的一些。許多文章都提供了比下棋更難的專家證詞，使這場勝利更加令人印象深刻。或者他們說，我們不希望電腦在未來10年內一帆風順，所以這是乙個更大的突破。有些文章提供了（正確的！）觀察到圍棋比下棋有更多的潛在位置，但他們不能解釋為什麼這會給計算機帶來比人類更大的困難。

換句話說，這些論點並沒有解決核心問題：導致alphago成功的技術進步會有更廣泛的影響嗎？為了回答這個問題，我們必須首先了解導致alphago的進步與導致深藍的進步在本質上是不同的，更重要。

在西洋棋中，初學者被教導棋子價值的概念。在乙個體系中，騎士或主教值三個卒子。一輛車，移動範圍更大，值五個兵。王后，擁有最大的範圍，是值得九卒。國王有無限的價值，因為失去它意味著失去遊戲。

您可以使用這些值來評估潛在的移動。放棄乙個主教來拿走你對手的車？這通常是個好主意。放棄乙個騎士和乙個主教來換取一輛車？不是個好主意。

價值觀念在計算機象棋中至關重要。大多數計算機象棋程式搜尋數百萬或數十億個動作和反動作的組合。程式的目標是找到一系列的動作，使程式的棋盤位置的最終值最大化，不管對手的動作順序是什麼。

早期的西洋棋程式使用「乙個主教等於三個卒」這樣的簡單概念來評估棋盤位置，但後來的程式使用了更詳細的西洋棋知識。例如，深藍在用於評估董事會位置的功能中結合了8000多個不同的因素。深藍色不僅僅是說一輛車等於五個兵。如果乙個顏色相同的兵在車前面，兵會限制車的移動範圍，從而使車的價值降低一點。然而，如果兵是「槓桿」，也就是說它可以通過俘獲敵人的兵而離開車的方向，深藍色認為兵是半透明的，不會降低車的價值。

這種想法依賴於對象棋的詳細了解，對深藍的成功至關重要。根據深藍隊的技術檔案，這種半透明的槓桿兵的概念對深藍在對陣卡斯帕羅夫的第二場比賽中的表現至關重要。

最終，深藍的開發者使用了兩個主要的想法。第一種方法是建立乙個包含大量詳細的象棋知識的函式來評估任何給定的棋盤位置。第二種方法是利用強大的計算能力來評估許多可能的位置，挑選出迫使最佳最終董事會位置的移動方式。

如果你把這個策略應用到行動中會發生什麼？

事實證明，你在嘗試時會遇到乙個難題。問題在於如何評估董事會的職位。頂級玩家使用很多直覺來判斷乙個特定的棋盤位置有多好。例如，他們會對乙個「良好形狀」的棋盤位置做出含糊不清的、聽起來很含糊的陳述，而且還不清楚如何在簡單、定義明確的系統（如棋子的估值）中表達這種直覺。現在你可能認為這只是乙個努力工作並想出乙個評估董事會職位的好方法的問題。不幸的是，即使經過幾十年的嘗試，使用傳統的方法，仍然沒有明顯的方法應用搜尋策略，這是如此成功的西洋棋和圍棋程式仍然令人失望。2023年，隨著所謂的蒙特卡洛樹搜尋演算法的引入，這一情況開始發生變化，該演算法嘗試了一種基於巧妙的隨機模擬遊戲的評估方法。但圍棋專案在能力上仍然遠遠落後於人類玩家。似乎對董事會地位的強烈直覺是成功的關鍵。關於alphago的新的和重要的是，它的開發人員已經找到了一種裝瓶方法，這種方法非常類似於直覺。為了解釋它是如何工作的，讓我來描述alphago系統，如1月份發表的**《alphago團隊》中所概述的。（阿爾法戈與李·塞多爾的比賽對體系的細節進行了一些改進，但廣泛的管理原則保持不變。）首先，alphago用15萬個由優秀的人類玩家玩的遊戲，並使用人工神經網路在這些遊戲中尋找模式。特別是，它學會了以很高的概率**乙個人類玩家在任何給定位置會採取什麼行動。然後，alphago的設計者改進了神經網路，不斷地將其與早期版本的自身進行競爭，調整網路，使其逐漸提高了獲勝的機會。這個被稱為政策網路的神經網路如何學會**好的動向？從廣義上講，神經網路是乙個非常複雜的數學模型，有數百萬個引數可以通過調整來改變模型的行為。當我說網路「學習」的時候，我的意思是計算機不斷地對模型中的引數進行微小的調整，試圖找到一種方法來對其效能進行相應的微小改進。在學習的第一階段，網路試圖增加與人類玩家做出相同動作的可能性。在第二階段，它試圖增加在自我遊戲中獲勝的可能性。這聽起來像是乙個瘋狂的策略——反覆地對一些非常複雜的函式進行細微的調整——但是如果你做的足夠長，有足夠的計算能力，網路就會變得相當好。奇怪的是：由於沒有人真正理解的原因，這是好事，因為這些改進是自動進行的數十億次微小調整的結果。經過這兩個訓練階段，政策網路可以玩乙個像樣的圍棋遊戲，與人類業餘愛好者的水平相同。但這離專業素質還有很長的路要走。從某種意義上說，這是一種在不搜尋未來遊戲線路和估計結果板位置值的情況下玩「走」的方式。為了超越業餘水平，阿爾法戈需要一種方法來估計這些職位的價值。為了克服這一障礙，開發人員的核心想法是讓alphago與自己的策略網路對抗，評估給定的董事會位置獲勝的可能性。獲勝的概率對這一頭寸提供了粗略的估計。（在實踐中，alphago使用了乙個稍微複雜一些的變化）然後，alphago將這種評估方法與搜尋許多可能的遊戲線相結合，將搜尋偏向於遊戲線策略網路的想法是可能的。然後，它選擇了迫使董事會進行最高有效估值的舉措。由此我們可以看出，alphago並沒有像deep blue在西洋棋中所做的那樣，從大量詳細的圍棋知識出發建立起乙個評估系統。相反，通過分析上千個以前的遊戲並進行大量的自我遊戲，alphago通過幾十億個微小的調整建立了乙個政策網路，每乙個都只是為了進行微小的增量改進。這反過來又幫助alphago建立了乙個估值系統，它捕捉到了乙個優秀的圍棋玩家對不同棋盤位置價值的直覺。這樣，alphago比深藍更激進。從最早的計算時代開始，計算機就被用來尋找優化已知函式的方法。deep blue的方法就是這樣的：一種旨在優化乙個函式的搜尋，該函式的形式雖然複雜，但主要表達現有的象棋知識。它很聰明怎麼搜尋，但不是

現有系統的另乙個侷限性是，它們通常需要許多人類的例子來學習。例如，阿爾法戈學習了15萬種人類遊戲。這是很多遊戲！相比之下，人類可以從少得多的遊戲中學到很多東西。類似地，識別和操作影象的網路通常在數百萬個示例影象上進行訓練，每個示例影象都帶有關於影象型別的注釋資訊。因此，乙個重要的挑戰是使系統能夠更好地從較小的人類提供的資料集中學習，並使用較少的輔助資訊。這麼說來，像alphago這樣的系統確實令人興奮。我們已經學會了使用計算機系統來複製至少一些人類直覺的形式。現在我們面臨著許多奇妙的挑戰：擴大我們所能代表的直覺型別的範圍，使系統穩定，理解它們為什麼以及如何工作，以及學習更好的方法，將它們與計算機系統的現有優勢結合起來。我們是否會很快學會捕捉到一些直覺判斷，這些直覺判斷可以用來寫數學證明，也可以用來寫故事或好的解釋？對於人工智慧來說，這是乙個非常有希望的時期。

最終，深藍的開發者使用了兩個主要的想法。第一種方法是建立乙個包含大量詳細的象棋知識的函式來評估任何給定的棋盤位置。第二種方法是利用強大的計算能力來評估許多可能的位置，挑選出迫使最佳最終董事會位置的移動方式。

alphago真的改變世界的技術嗎？

改變世界的Wiki

7 美元的裝置能改變世界嗎

機械人如何改變我們的世界

alphago真的改變世界的技術嗎？

改變世界的Wiki

7 美元的裝置能改變世界嗎

機械人如何改變我們的世界

相關推薦