前沿強化學習問題

2021-10-24 22:17:43 字數 1234 閱讀 9502

近年來,深度強化學習(drl)受到了大家的廣泛關注,並且在機械人控制、自動駕駛、推薦系統領域等都得到了應用,但drl目前的發展依然受限,本文將從以下幾方面進行分析和解釋。

一、 樣本效率sample efficiency

學習所需樣本太多,目前常用的方法有:

off-policy(experience reply):之前的經驗存下來之後反覆使用;

model-based learning:有利於更有方向性地探索,另一方面利用模型規劃使action質量更高;

piror:從其他地方獲取先驗知識,並加以利用從而更快學習;

faster convergence:使演算法更快收斂。

二、  學習的最終效果不好

最常採用以下方式:

針對特定問題進行特定建模;

提高模型的容量(一些model-based方法)和抽象能力(分層強化學習);

模仿學習(imitation learning),從專家示範入手;

逐步學習(curriculum learning),先學習簡單情形,再學習更複雜的情形

三、  獎勵設定困難

gym對於特定任務已經人為定義了比較合適的獎勵,人為去定義現實生活中的獎勵往往非常困擾,易導致演算法效果非常不好。如果直接將目標定義為獎勵,會導致獎勵非常稀疏(sparse),定義獎勵的最好辦法是一步步引導agent來解決問題,但agent往往是愚蠢而懶惰的,它們經常會想盡辦法利用所定義獎勵中的漏洞來欺騙設計者,所以需要定義的獎勵最好是形態完好且平滑,從而讓agent「安分」完成任務。常用解決方法如下:

先面對困難,再定義更好的方案,如迭代更新的gym任務;

讓它能自己學習到獎勵,如imitation learning、inverse learning;

直接定義內在獎勵,如curiosity、diversity。

四、  缺乏泛化性

即對於特定環境的過擬合,不能泛化。目前的方法:

在更廣問題上學習先驗知識(piror),然後在特定問題上加速學習,如transfer learning、meta learning、few-shot learning;

邏輯推理能力,(目前進展欠缺)。

五、  調參困難

引起困難的主要原因:

隨機性:任務本身的、取樣的等等;

測試一組超引數花費的時間長;

演算法缺乏穩定性。

六、  其他問題

reality gap

multi-agent rl

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...