前沿強化學習問題

近年來，深度強化學習（drl）受到了大家的廣泛關注，並且在機械人控制、自動駕駛、推薦系統領域等都得到了應用，但drl目前的發展依然受限，本文將從以下幾方面進行分析和解釋。

一、樣本效率sample efficiency

學習所需樣本太多，目前常用的方法有：

off-policy(experience reply)：之前的經驗存下來之後反覆使用；

model-based learning：有利於更有方向性地探索，另一方面利用模型規劃使action質量更高；

piror：從其他地方獲取先驗知識，並加以利用從而更快學習；

faster convergence：使演算法更快收斂。

二、學習的最終效果不好

最常採用以下方式：

針對特定問題進行特定建模；

提高模型的容量（一些model-based方法）和抽象能力（分層強化學習）；

模仿學習（imitation learning），從專家示範入手；

逐步學習（curriculum learning），先學習簡單情形，再學習更複雜的情形

三、獎勵設定困難

gym對於特定任務已經人為定義了比較合適的獎勵，人為去定義現實生活中的獎勵往往非常困擾，易導致演算法效果非常不好。如果直接將目標定義為獎勵，會導致獎勵非常稀疏（sparse），定義獎勵的最好辦法是一步步引導agent來解決問題，但agent往往是愚蠢而懶惰的，它們經常會想盡辦法利用所定義獎勵中的漏洞來欺騙設計者，所以需要定義的獎勵最好是形態完好且平滑，從而讓agent「安分」完成任務。常用解決方法如下：

先面對困難，再定義更好的方案，如迭代更新的gym任務；

讓它能自己學習到獎勵，如imitation learning、inverse learning；

直接定義內在獎勵，如curiosity、diversity。

四、缺乏泛化性

即對於特定環境的過擬合，不能泛化。目前的方法：

在更廣問題上學習先驗知識（piror），然後在特定問題上加速學習，如transfer learning、meta learning、few-shot learning；

邏輯推理能力，（目前進展欠缺）。

五、調參困難

引起困難的主要原因：

隨機性：任務本身的、取樣的等等；

測試一組超引數花費的時間長；

演算法缺乏穩定性。

六、其他問題

reality gap

multi-agent rl

…

前沿強化學習問題

強化學習強化學習基礎

強化學習 1 1 0 強化學習介紹

強化學習系列1 強化學習簡介

前沿強化學習問題

強化學習 強化學習基礎

強化學習 1 1 0 強化學習介紹

強化學習系列1 強化學習簡介

相關推薦

強化學習強化學習基礎