關於百度強化學習七日打卡營 乙個菜鳥的學習感悟

2021-10-07 09:19:49 字數 1314 閱讀 8888

1.剛開始第乙個作業搭建環境parl:

parl是乙個演算法庫,是對agent的框架抽象。簡單來說就是在一台機器上呼叫pip install parl,就可以啟動集群平行計算,使運算加速。

ps:心裡竊喜,對於我們小白,非常友好,因為之前有機器學習的基礎,又經常白嫖 參加aistudio的活動,所以上手非常快,沒有兩分鐘就幹完了。

2.迷宮遊戲對比sarsa和q-learning

sarsa的學習過程和q-learning差不多一樣,**不同的地方是q-learning在走下一步的時候是先看下一步應該走哪,但是最後不一定走,而sarsa是決定完要走的步之後一定會去走那一步。**換句話說,q-learning在更新當前位置的q值的時候會參考表中收益最大的那個值,但下一步不一定會走到那個位置,而sarsa是先選取下一步要走的位置的q值來更新當前位置的q值,當然,選完它下一步一定會去走那一步。

sarsa雖然說是說到做到,但是由於它選取下一步的位置是嚴格按照已有學習到的經驗來選擇,所以它探索未知位置的能力就會很差,相對於說了不一定算的q-learning來說,反而q-learning更勇敢一些。

ps:作業難度稍微增加,但是演算法基礎還算在我本科生的理解範圍之內

3. dqn解決mountaincar

強化學習演算法可以分為三大類:value based, policy based 和 actor critic。常見的是以dqn為代表的value based演算法,這種演算法中只有乙個值函式網路,沒有policy網路,以及以ddpg,trpo為代表的actor-critic演算法,這種演算法中既有值函式網路,又有policy網路。

具體演算法原理,我查了一下資料,直接甩鏈結吧: dqn演算法原理

ps:可能是運氣好吧,第一次調參就成功了,看群裡的小夥伴試了很多次都沒有成功。

4.pg解決pongps:這個作業真正體驗到了煉丹的辛苦,由於電腦會崩潰,我不得不另闢蹊徑,於是我用我的樹莓派,低功耗煉丹,並且增加了訓練的回合數,直接跑3000次,經過乙個晚上,跑到2900的時候心態崩了,還是沒有收斂,直到剛好跑到3000,奇蹟發生了,這麼多回合都是負數,最後一次居然是正數,心裡竊喜,興奮了乙個晚上。

百度7日強化學習總結

基本概念包括 兩部分 agent智慧型體,environment 環境 三要素 state狀態,動作action,reward獎勵。agent學習兩種策略 基於價值的value based 隨機性策略,代表性的有sarsa,q learning,dqn 基於策略的policy based 隨機性策略...

百度強化7日打卡學習心得

強化學習包含智慧型體和智慧型體所在的環境兩部分,如下圖,智慧型體又要和環境進行互動,互動主要是指智慧型體的動作會根據環境的狀態獲得獎勵或懲罰,如下圖,強化學習的應用也很廣泛,如下圖,強化學習和其他學習的關係,如下圖,強化學習對比其他學習注重的是決策問題,通過智慧型體與周邊環境的互動學會了如何能獲得更...

我在百度上回答的乙個關於類的問題

首先宣告是很簡單的乙個問題,就是關於類的基本問題。只是我覺得有點經驗就應當趕緊積累記錄一下。以下是乙個學生類 student 的類定義部分,請完成相應的類的實現部分,並編寫相應的main函式測試相應的功 離問題結束還有 14 天 21 小時 includeclass student 下面是我的回答 ...