深度強化學習 二

2021-09-25 21:43:58 字數 782 閱讀 6506

強化學習和深度學習有什麼關係?深度學習參與的強化學習與傳統的強化學習有何不同?為什麼要引入深度學習?

強化學習的過程中,處理的是狀態,實際上,很多時候狀態是連續的、複雜的、高階的。因此,求助於深度學習。深度學習善於處理高維資料,並快速地從中抽取模式。比如在影象處理中,用畫素的集合體來表示完整的影象。這時,選取乙個什麼特徵,怎麼選取乙個特徵對於解決實際問題非常重要。人為地選取特徵是一件耗時耗力且面對大量未知的東西沒有什麼規律可循的方法,選取的好不好很大程度上靠經驗和運氣。既然手工選取特徵不太好進行,能不能讓機器學習自動學習一些特徵呢?答案是能!!!深度學習就是用來幹這事的。深度學習的別名叫(unsupervised feature learning),因此自動學習特徵的方法,統稱為深度學習。

深度強化學習引入

傳統的**形式的強化學習有這樣乙個瓶頸,使用**來儲存每乙個狀態state, 和在這個 state 每個行為 action 所擁有的 q 值. 如果全用**來儲存它們, 計算機記憶體不夠, 而且搜尋對應的狀態也是一件很耗時的事. (比如下圍棋).

所以,我們可以利用神經網路將狀態和動作當成神經網路的輸入, 然後經過神經網路分析後得到動作的 q 值, 這樣我們就沒必要在**中記錄 q 值, 而是直接使用神經網路生成 q 值.

還有一種形式, 只輸入狀態值, 輸出所有的動作值, 然後按照 q learning 的原則, 直接選擇擁有最大值的動作當做下一步要做的動作. 神經網路接受外部的資訊, 相當於眼睛鼻子耳朵收集資訊, 然後通過大腦加工輸出每種動作的值, 最後通過強化學習的方式選擇動作.

強化學習 二 DQN深度強化學習網路

dqn,deep q network,是融合了q learning和神經網路的方法 使用q table這樣乙個 來儲存state和action的q值,在複雜的情境下,狀態可以多到比天上的星星還要多,如果全用 來儲存,計算機是儲存不下的。並且在如此巨大的 中搜尋對應狀態也是一種很耗時的事情 不過神經網...

深度強化學習

這是寫給自己看的,大佬請忽略 深度學習和其他機器學習演算法最大的不同在於如何找到特徵,而特徵的抽取過程就是乙個抽象的全過程。以往機器學習演算法的特徵抽取都是對一類問題有解,比如k means等聚類。深度學習抽象模擬了人類神經元傳遞和連線方式,理論上可以解決多種分類問題和 問題,甚至研究未知領域。深度...

深度強化學習

一 簡介 1 深度強化學習出現的原因 傳統的強化學習中當狀態和動作空間是離散且維數不高時可使用q table儲存每個狀態動作對的q值。然而比較複雜的 更加接近實際情況的任務則往往有著很大的狀態空間和連續的動作空間,這種情況下使用q table不現實。同時實現端到端的控制也是要求能處理高維的,如影象 ...