Double Q Learning 閱讀記錄

2021-10-24 01:38:51 字數 944 閱讀 9992

1、overoptimism problem && maximization bias problemq學習會帶來很多問題,比如會導致最大化偏差問題,使得估計的動作價值偏大。

double dqn就是為了解決上面的問題,double dqn很簡單,對於dqn的改變如下所示:

簡單的理解是double-dqn,由於dqn中已經存在了target network,不需要構造額外的網路了,直接用target network去代表第二個q表,其更新的公式如上圖(黃色標註)所示,當然更新tartget network的引數是 theta minus 而不是 theta。

3、double dqn 編碼實現

# 根據上述 公式

q_next = self.target_network.predict(next_s_batch)

# 變成

q_next_one = self.eval_network.predict(next_s_batch)

action_max_one = q_next_one.argmax(axis=-1)

q_next_two = self.target_network.predict(next_s_batch)

q_next = q_next_two[np.arange(q_next_two.shape[0]), action_max_one]

每日技術閱讀記(2019 01 26)

今天讀的內容,章章命中要害,我正有這些問題,作者從乙個過來人的角度給了自己的策略。第39章 超額完成工作 第40章 對自己負責 第41章 要不要多工並行 第42章 職業倦怠 我已找到解藥 我的定額工作法確保自己每天 每週都朝著自己最重要的目標取得明確的 可度量的進展。定額工作法還可以克服意志力薄弱的...

記閱讀POST與GET的區別

閱讀 知乎 get和post區別 99 的人理解錯 http 中 get 與 post 的區別 聽說 99 的人都理解錯了 http 中 get 與 post 的區別 w3schools的解釋 本標準答案參考自w3schools 本質都是tcp鏈結 post與get本質上都是tcp鏈結,並無差別。由...

閱讀架構漫談(三)筆記

按照之前閱讀之後得到的架構的定義,做好架構首先需要做的就是識別出需要解決的問題。一般來說,如果把真正的問題找到,那麼問題就已經解決了80 了。這個能力基本上就決定了架構師的水平。女主人公 老公,把袋子裡的土豆切一半下鍋。結果老公是把袋子裡的每個土豆都削了一半,然後下鍋。這個笑話是書中所提到的,也是我...