機器學習方法篇 23 增強學習入門

2021-08-16 02:30:23 字數 1640 閱讀 8164

別讓夢想的附屬品喧賓奪主。

在小鬥去年五月份寫的 alphago技術剖析:揭開圍棋大腦的神秘面紗 這篇介紹alphago的文章中講到,alphago之所以能戰勝人類頂尖的圍棋手,主要是增強策略網路的功勞。而增強策略網路的核心技術,便是增強學習。那麼,增強學習到底是什麼?

增強學習(reinforcement learning),又名強化學習,和監督學習、無監督學習一樣,也是機器學習的乙個分支。

不過,和監督學習、無監督學習相比,增強學習不一定需要大量的訓練資料,而更像是一種從零開始通過「左右互搏」的方式提高模型能力的一種學習方式。其主要有以下四個特點:

1.沒有標籤資料、只有獎勵訊號;

2.獎勵訊號不一定實時反饋,有時甚至延遲較大;

3.時間序列是乙個重要因素;

4.當前行為影響後續行為。

下面講講增強學習的幾個主要概念:

時間序列元素每乙個時刻t都包含三個元素:ot、at、rt。ot表示對當前t時刻環境的觀察;at表示對當前觀測所做出的乙個行為;rt表示t-1時刻行為所帶來的獎勵,是乙個標量,也是增強學習的優化目標。

個體和環境在t時刻,個體對於環境有乙個觀察評估ot,然後做出乙個行為at,並從環境得到乙個獎勵訊號rt+1;而環境則在t時刻接收個體的動作at,更新環境資訊,同時使個體得到下一時刻的觀測ot+1,並給個體乙個獎勵訊號rt+1。

歷史和狀態歷史是觀測、行為、獎勵的序列,狀態是用於決定將來的已有資訊,是關於歷史的乙個函式:st = f(ht)。狀態又分為個體狀態、環境狀態和資訊狀態。

個體一般由以下三個組成部分中的乙個或多個組成:

策略函式決定個體行為的方式,是狀態到行為的對映。

價值函式對未來獎勵的一種**,用於評價當前狀態的好壞程度。

模型個體對環境的建模。模型一般需要解決兩個問題:一是狀態轉化概率,即**未來可能狀態的發生概率;二是**未來的即時獎勵。

增強學習的學習過程可以比作成一種試錯學習,個體一方面需要從與環境的互動中發現乙個好策略,另一方面又不至於在試錯過程中損失太多獎勵。

增強學習廣泛應用於***特技飛行、經典遊戲、投資管理、發電站控制、讓機械人模仿人類行走等方面。

以上便是增強學習的入門講解,敬請期待下節內容。

機器學習方法

根據資料型別的不同,對乙個問題的建模有不同的方式。在機器學習或者人工智慧領域,人們首先會考慮演算法的學習方式。在機器學習領域,有幾種主要的學習方式。將演算法按照學習方式分類是乙個不錯的想法,這樣可以讓人們在建模和演算法選擇的時候考慮能根據輸入資料來選擇最合適的演算法來獲得最好的結果。監督式學習 在監...

機器學習方法篇 10 隨機森林

因年齡增長所帶來的理解力,與努力無關。前面介紹了決策樹演算法應用之一的gbdt模型,本節講講決策樹另乙個比較火的應用模型,隨機森林。與gbdt模型相比,同樣屬於整合學習,隨機森林模型的原理更為直觀簡潔,效能也同樣十分強悍。那麼,隨機森林演算法模型的原理與思想是怎樣的?所謂多樹成林,random fo...

機器學習方法篇 17 整合學習

做出決定,然後對決定負責。俗話說 三個臭皮匠,頂個諸葛亮 單個模型的效能效果通常弱於多個模型的融合結果,而這種融合就叫做整合學習。那麼整合學習有哪些常見模型?這種整合是否一定能提公升模型效果呢?在做多人決策時,通常採取投票機制,即 少數服從多數 我們不妨就先從投票講講什麼是好的整合,什麼是不好的整合...