理解增強學習的評估

潛能，通常是逼出來的。

在前面機器學習方法篇系列中，小鬥給大家簡單介紹了什麼是增強學習，以及增強學習最基礎的幾個演算法概念（mdp、dp、mc、td）。基本上，策略函式的優劣決定了整個模型的好壞。那麼，如何評估增強學習的策略？和評估監督/無監督學習有何不同？

我們知道，在監督學習中，樣本資料有明確的label標籤值，我們可以通過計算**值和標籤值之間的auc、f1 score等指標來評估模型的優劣；在無監督學習中，我們則通常使用距離度量衍生出來的指標來衡量模型的好壞。

比如，auc指標較高的模型，模型能力通常較好，關於auc的講解可參見文章如何直觀理解auc評價指標？

而在增強學習中，訓練樣本既沒有label的概念，也不存在距離的度量，只有reward（回報或獎勵）。那麼增強學習到底如何評估？

最直觀也是最能想到的評估方法，就是直接計算法（direct method，dm）。

舉例說明：行為空間，對應的獎勵分別是，當前策略函式π給出的行動概率分別是。我們用dm直接評估該策略的收益，就是 10 * 50% + 6 * 50% = 8，策略函式π在當前樣本下的收益評估即為8。

問題來了，獎勵值的均值期望和真實的獎勵期望往往並不相等。打個比方，姚明nba職業生涯罰籃命中率是83.3%，假如我們隨機抽看其兩場比賽，發現其中一場罰籃10中6，另一場10中7，平均下來這兩場罰籃命中率只有65%，和83.3%相去甚遠。

究其原因，是受樣本本身抽樣的限制，如果統計所有比賽的期望，就是83.3%，即無偏估計。而增強學習在現實場景中，幾乎不可能窮舉所有樣本，所以用dm來評估增強學習演算法，太簡單粗暴，不夠準確。

那麼，有沒有好一點的辦法來評估？自然是有的，那就是重要性取樣（importance sampling，is）。增強學習所有流行的評估方法，幾乎都是在is方法的基礎之上做的延伸和改進。

以上便是增強學習評估方面的簡單介紹，敬請期待下節內容。