機器學習方法篇 23 增強學習入門

別讓夢想的附屬品喧賓奪主。

在小鬥去年五月份寫的 alphago技術剖析：揭開圍棋大腦的神秘面紗這篇介紹alphago的文章中講到，alphago之所以能戰勝人類頂尖的圍棋手，主要是增強策略網路的功勞。而增強策略網路的核心技術，便是增強學習。那麼，增強學習到底是什麼？

增強學習（reinforcement learning），又名強化學習，和監督學習、無監督學習一樣，也是機器學習的乙個分支。

不過，和監督學習、無監督學習相比，增強學習不一定需要大量的訓練資料，而更像是一種從零開始通過「左右互搏」的方式提高模型能力的一種學習方式。其主要有以下四個特點：

1.沒有標籤資料、只有獎勵訊號；

2.獎勵訊號不一定實時反饋，有時甚至延遲較大；

3.時間序列是乙個重要因素；

4.當前行為影響後續行為。

下面講講增強學習的幾個主要概念：

時間序列元素每乙個時刻t都包含三個元素：ot、at、rt。ot表示對當前t時刻環境的觀察；at表示對當前觀測所做出的乙個行為；rt表示t-1時刻行為所帶來的獎勵，是乙個標量，也是增強學習的優化目標。

個體和環境在t時刻，個體對於環境有乙個觀察評估ot，然後做出乙個行為at，並從環境得到乙個獎勵訊號rt+1；而環境則在t時刻接收個體的動作at，更新環境資訊，同時使個體得到下一時刻的觀測ot+1，並給個體乙個獎勵訊號rt+1。

歷史和狀態歷史是觀測、行為、獎勵的序列，狀態是用於決定將來的已有資訊，是關於歷史的乙個函式：st = f(ht)。狀態又分為個體狀態、環境狀態和資訊狀態。

個體一般由以下三個組成部分中的乙個或多個組成：

策略函式決定個體行為的方式，是狀態到行為的對映。

價值函式對未來獎勵的一種**，用於評價當前狀態的好壞程度。

模型個體對環境的建模。模型一般需要解決兩個問題：一是狀態轉化概率，即**未來可能狀態的發生概率；二是**未來的即時獎勵。

增強學習的學習過程可以比作成一種試錯學習，個體一方面需要從與環境的互動中發現乙個好策略，另一方面又不至於在試錯過程中損失太多獎勵。

增強學習廣泛應用於***特技飛行、經典遊戲、投資管理、發電站控制、讓機械人模仿人類行走等方面。

以上便是增強學習的入門講解，敬請期待下節內容。