2020百度強化學習培訓體會

2021-10-07 11:51:53 字數 585 閱讀 5053

感謝美麗的科科老師,加班加點地用心備課和深入淺出的講解,讓我這個對強化學習一無所知的門外漢,也有機會登堂入室,一窺強化學習的奧妙與強大。

一、相對於保守安全的sarsa演算法(也許是我功夫還不到吧,在cliffwalking遊戲中,雖然agent每次都成功的避開了懸崖旁邊的危險路徑,但經常是執行結果大不相同),我更喜歡極具冒險精神的q-learning演算法,每次只選擇未來獲取獎勵最高的策略,每次都堅定的走臨近懸崖的最近的路;

二、還有經典的dqn演算法,開創了神經網路與強化學習巧妙結合,將強化學習的應用場景從離散狀態擴充套件到人們生活中常見的連續狀態,讓agent能夠像人一樣,通過觀察影象,獲取環境資訊,從而做出對應的決策;

三、對於pg演算法,很慚愧,我暫時沒有搞得很清楚,dqg能做的,好像pg也能勝任,好像學習速度還更快些;

四、我更感興趣的強化學習演算法,要數接地氣的ddpg了。這個演算法不但能夠讀懂連續變化的外部環境,更能夠根據環境的變化輸出連續的動作,這也太像我們人類自己面對這個世界時的反應了。

學習過程中,也有一些疑惑。比如,強化學習的應用大多數都在虛擬的遊戲場景,agent通過模擬器獲得環境狀態和rewards。那麼現實場景,特別是小樣本的場景,強化學習的戰鬥力如何呢?

百度強化學習框架PARL入門強化學習

parl框架github鏈結 parl框架gitee鏈結 走過路過不要錯過歡迎同學們點下star支援一下咱們的自己的框架 監督學習和非監督學習的輸出為 是什麼 是乙個判斷,多用於聚類和回歸問題。比較經典的案例如手寫數字體識別,房價 強化學習的輸出是 決策 通常用於策略類問題,比如阿爾法狗就是典型的強...

百度7日強化學習總結

基本概念包括 兩部分 agent智慧型體,environment 環境 三要素 state狀態,動作action,reward獎勵。agent學習兩種策略 基於價值的value based 隨機性策略,代表性的有sarsa,q learning,dqn 基於策略的policy based 隨機性策略...

百度系強化學習的先導工程知識梳理

pip install u paddlepaddle 快速開始 paddle 這裡有很多基礎概念 幾個重要的概念 paddle 的設計思想 parl 的特點包括 使用parl的目標是構建乙個強化學習智慧型體,構建主要基於3個類 熟悉gym 的小練習 env gym.make cartpole v0 ...