關於百度強化學習七日打卡營乙個菜鳥的學習感悟

1.剛開始第乙個作業搭建環境parl：

parl是乙個演算法庫，是對agent的框架抽象。簡單來說就是在一台機器上呼叫pip install parl,就可以啟動集群平行計算，使運算加速。

ps:心裡竊喜，對於我們小白，非常友好，因為之前有機器學習的基礎，又經常白嫖參加aistudio的活動，所以上手非常快，沒有兩分鐘就幹完了。

2.迷宮遊戲對比sarsa和q-learning

sarsa的學習過程和q-learning差不多一樣，**不同的地方是q-learning在走下一步的時候是先看下一步應該走哪，但是最後不一定走，而sarsa是決定完要走的步之後一定會去走那一步。**換句話說，q-learning在更新當前位置的q值的時候會參考表中收益最大的那個值，但下一步不一定會走到那個位置，而sarsa是先選取下一步要走的位置的q值來更新當前位置的q值，當然，選完它下一步一定會去走那一步。

sarsa雖然說是說到做到，但是由於它選取下一步的位置是嚴格按照已有學習到的經驗來選擇，所以它探索未知位置的能力就會很差，相對於說了不一定算的q-learning來說，反而q-learning更勇敢一些。

ps:作業難度稍微增加，但是演算法基礎還算在我本科生的理解範圍之內

3. dqn解決mountaincar

強化學習演算法可以分為三大類：value based, policy based 和 actor critic。常見的是以dqn為代表的value based演算法，這種演算法中只有乙個值函式網路，沒有policy網路，以及以ddpg,trpo為代表的actor-critic演算法，這種演算法中既有值函式網路，又有policy網路。

具體演算法原理，我查了一下資料，直接甩鏈結吧： dqn演算法原理

ps:可能是運氣好吧，第一次調參就成功了，看群裡的小夥伴試了很多次都沒有成功。

4.pg解決pongps:這個作業真正體驗到了煉丹的辛苦，由於電腦會崩潰，我不得不另闢蹊徑，於是我用我的樹莓派，低功耗煉丹，並且增加了訓練的回合數，直接跑3000次，經過乙個晚上，跑到2900的時候心態崩了，還是沒有收斂，直到剛好跑到3000，奇蹟發生了，這麼多回合都是負數，最後一次居然是正數，心裡竊喜，興奮了乙個晚上。

關於百度強化學習七日打卡營乙個菜鳥的學習感悟

百度7日強化學習總結

百度強化7日打卡學習心得

我在百度上回答的乙個關於類的問題

關於百度強化學習七日打卡營 乙個菜鳥的學習感悟

百度7日強化學習總結

百度強化7日打卡學習心得

我在百度上回答的乙個關於類的問題

相關推薦

關於百度強化學習七日打卡營乙個菜鳥的學習感悟