強化學習總結與展望

2021-09-11 01:16:34 字數 1189 閱讀 2055

參考a technical overview of ai & ml (nlp, computer vision, reinforcement learning) in 2018 & trends for 2019

前兩個問題可以用一套類似的技巧來解決,所有這些技巧都與無監督表示學習有關。目前在rl中,我們正在訓練深度神經網路,該網路使用稀疏的獎勵訊號(如atari遊戲的分數或機械人抓取的成功)以端到端的方式從原始輸入空間(如畫素)對映到動作(如反向傳播)。

這裡的問題是:由於訊雜比非常低,實際有用的特徵檢測器的「增長」需要很長的時間。rl基本上是從隨機行動開始的,直到幸運地發現乙個獎勵,然後需要弄清楚具體的獎勵是如何產生的。進一步的探索要麼是硬編碼的(ϵ

\epsilon

ϵ-greedy的探索),要麼是用好奇心驅動的探索等技術來鼓勵的。這不是很有效,會導致問題1。

其次,眾所周知,這些深度神經網路體系結構很容易過擬合,在rl中,我們通常傾向於在訓練資料上進行測試——在這種正規化中,實際上鼓勵過擬合。

我非常感興趣的乙個可能的前進道路是利用無監督的表示學習(autoencoders,vae』s,gans,…)將雜亂的高維輸入空間(如畫素)轉換為低維的「概念」空間,該空間具有某些可取的特性,例如:線性度、分離度、對雜訊的魯棒性……

一旦你能將畫素對映到這樣乙個有用的潛在空間中,學習就會變得更容易/更快(問題1),你也希望在這個空間中學習的策略會因為上面提到的屬性而具有更強的泛化性(問題2)。

我不是分層問題的專家,但是上面提到的每乙個問題都適用於這裡:在潛在空間中解決複雜的層次任務比在原始輸入空間中更容易。

由於增加了越來越多的輔助學習任務,增加了稀疏的、外在的獎勵訊號(如好奇心驅動的探索、自動編碼器式的預訓練、消除環境中的因果因素等),取樣複雜性將繼續提高。這在非常稀疏的獎勵環境中尤其有效。

直接在物理世界中進行訓練將變得越來越可行(而不是目前主要在模擬環境中訓練,然後使用域隨機化轉移到現實世界的應用程式)。我**2023年將帶來第乙個真正令人印象深刻的機械人demo,使用深度學習方法,沒有硬編碼/人工工程(不像我們迄今為止看到的大多數demo)

隨著deep rl在alphago中取得重大成功(尤其是最近的alphafold結果),我相信rl將逐漸開始提供實際的業務應用程式,這些應用程式將在學術空間之外創造真實的價值。

正如已經開始發生的那樣,在rl開發中會有乙個普遍的轉變,即不再認為對訓練資料進行測試是「允許的」。泛化指標將成為核心,就像監督學習方法一樣。

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習框架總結

設定,重新經歷 強化學習 rl 框架包含學習與其環境互動的智慧型體。在每個時間步,智慧型體都收到環境的狀態 環境向智慧型體呈現一種情況 智慧型體必須選擇相應的響應動作。乙個時間步後,智慧型體獲得乙個獎勵 環境表示智慧型體是否對該狀態做出了正確的響應 和新的狀態。所有智慧型體的目標都是最大化預期累積獎...

強化學習知識總結

參考文章 研一接觸了強化學習,然後對其就產生了很大的興趣。雖然有在莫煩python上學習,也自己做過很簡單的專案,但是之前對rl的學習比較混亂並不系統。正好看到這篇文章,感覺對自己有很大的幫助,就根據作者列出的知識點進行擴充套件學習。model free就是不去學習和理解環境,環境給出什麼資訊就是什...