回歸 記Paddle強化學習訓練營

2022-09-05 17:30:12 字數 819 閱讀 1351

回到,上次發博已是5年,不曾想,機緣巧合,以參加一次paddle訓練營心得來回歸。

心想:雖然大部分時間要上班,這7天時間不長,應該很好堅持下來吧。

第一堂課,我開啟b站,想不到這裡真的是學習的,內容比較基礎,容易上手,需要對ai studio平台進行適應學習,但這僅僅是強化學習的開始。

之後的幾天都是早早到公司看昨天的錄影、做作業,想想工作2年來,還沒有這樣趕著快點到公司來的經歷,不得不定下當日的list,防止影響工作。這感覺真的很棒。

最後乙個作業,是做四軸飛行器的電壓調節,訓練了好幾小時總是不收斂、收益為負。

除錯方法也是不得章法:不知道這網路層數、超引數(學習率、回報衰減等)到底是不是影響結果的原因,東一榔頭西一鎚頭的亂試,每次還要等好久才能看出趨勢,心想煉丹此言不虛啊。

因為沒有實踐過深度學習,訓練效果不好,很是苦惱,但這也許會給我內心種下乙個種子,想要把深度學習也弄明白。

沒想到,收益很快就變成了正數,並且越來越大。心中竊喜,頁再次體會到:思路和方法真的更加重要。

感謝這套課程,課程中,科科老師講解詳略得當,抓住要點,在1h的課程讓人迫不及待想去試試,感謝,也感謝芮芮老師的組織和提醒。

後面附上自己學習筆記,由於是手寫的,只能上傳**了。

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...