深度強化學習簡介

強化學習（reinforcement learning）是機器學習的乙個重要分支，它是用來解決連續決策的問題。強化學習的應用範圍十分廣泛，幾乎包括了所有需要做一系列決策的問題，例如控制電擊讓它執行特定任務，玩棋牌遊戲（alphago）等。它能應用到有序列輸出的問題中，即針對一系列變化的環境狀態，輸出一系列對應的最優的行動，圍棋就是典型的例子。

乙個強化學習包括三個主要的概念，即環境狀態（environment state），行動（action）和獎勵（reward）,而強化學習的目標就是獲得最多的累計獎勵。聚類，autoencoder屬於無監督學習，神經網路，貝葉斯分類器，支援向量機這類屬於監督學習，而強化學習介於二者之間，它既不像無監督學習那樣完全沒有學習目標，又不像監督學習那般有非常明確的label,強化學習的目標一般是變化的，不明確的，甚至於可能不存在絕對正確的標籤。

強化學習也已經有幾十年的歷史，直到最近深度學習技術的突破，強化學習才有了較大的進展。google deepmind結合強化學習和深度學習，其推出的alphago結合了策略網路（policy network），估值網路（value network）與蒙特卡洛搜尋樹，實現了具有超高水平的圍棋對戰程式，並戰勝了世界冠軍李世石。這些網路本質上也是神經網路，主要分為策略網路和估值網路兩種。深度強化學習模型對環境沒有特別強的限制，可以很好的推廣到其他環境，因此對強化學習的研究和發展具有非常重大的意義。目前火熱的自動駕駛，也是深度強化學習的應用之一。

接下去我們將會使用tensorflow實現簡單的策略網路和估值網路，中間涉及到的演算法，我們盡可能地簡要的並清晰地表達清楚，敬請期待。

深度強化學習簡介

深度強化學習

深度強化學習

深度強化學習

相關推薦