理解增強學習的評估

2021-08-31 13:34:30 字數 1293 閱讀 5573

潛能,通常是逼出來的。

在前面機器學習方法篇系列中,小鬥給大家簡單介紹了什麼是增強學習,以及增強學習最基礎的幾個演算法概念(mdp、dp、mc、td)。基本上,策略函式的優劣決定了整個模型的好壞。那麼,如何評估增強學習的策略?和評估監督/無監督學習有何不同?

我們知道,在監督學習中,樣本資料有明確的label標籤值,我們可以通過計算**值和標籤值之間的auc、f1 score等指標來評估模型的優劣;在無監督學習中,我們則通常使用距離度量衍生出來的指標來衡量模型的好壞。

比如,auc指標較高的模型,模型能力通常較好,關於auc的講解可參見文章 如何直觀理解auc評價指標?

而在增強學習中,訓練樣本既沒有label的概念,也不存在距離的度量,只有reward(回報或獎勵)。那麼增強學習到底如何評估?

最直觀也是最能想到的評估方法,就是直接計算法(direct method,dm)

舉例說明:行為空間,對應的獎勵分別是,當前策略函式π給出的行動概率分別是。我們用dm直接評估該策略的收益,就是 10 * 50% + 6 * 50% = 8,策略函式π在當前樣本下的收益評估即為8。

問題來了,獎勵值的均值期望和真實的獎勵期望往往並不相等。打個比方,姚明nba職業生涯罰籃命中率是83.3%,假如我們隨機抽看其兩場比賽,發現其中一場罰籃10中6,另一場10中7,平均下來這兩場罰籃命中率只有65%,和83.3%相去甚遠。

究其原因,是受樣本本身抽樣的限制,如果統計所有比賽的期望,就是83.3%,即無偏估計。而增強學習在現實場景中,幾乎不可能窮舉所有樣本,所以用dm來評估增強學習演算法,太簡單粗暴,不夠準確。

那麼,有沒有好一點的辦法來評估?自然是有的,那就是重要性取樣(importance sampling,is)。增強學習所有流行的評估方法,幾乎都是在is方法的基礎之上做的延伸和改進。

以上便是增強學習評估方面的簡單介紹,敬請期待下節內容。

增強學習(一) 基本概念的理解

reinforcement learning 1.定義 reinforcement learning is learning what to do how to map situations to actions so as to maximize a numerical reward signal...

機器學習的模型評估

機器演算法有很多,各種模型的在不同的場景下各有優劣。所以需要一些方法來對機器學習的方法有乙個判斷。真實情況 正例反例 正例tp 真正例 fn 假反例 反例fp 假正例 tn 真反例 p tpt p fp r tptp fnroc reciever operating characteristic 是...

評估演算法核心指標理解

1.時間複雜度 這個是由流程決定的,那什麼叫做流程決定?就是看你是怎麼設計這套流程演算法的。舉例 如果你是直接根據下標索引直接找到資料,那麼你的時間複雜度就為o 1 而如果是迴圈遍歷比對找到資料,那麼你的時間複雜度就位o n 2.額外空間複雜度 這個也是由流程決定的。首先什麼叫做額外空間複雜度,就是...