揭秘深度強化學習 1簡述

2021-08-21 12:00:41 字數 967 閱讀 1942

看完覺得深受啟發的一篇文章,根據自己的理解翻譯過來留以後再次翻看

某年某月某一天,deepmind在arxiv上發表**「playing atari with deep reinforcement learning」。在這篇**中,他們證明了一台計算機是如何只通過 觀察螢幕的畫素點 和 遊戲分數增加時獲得獎勵 來學習玩atari 2600 遊戲的。效果非常顯著,因為不同的遊戲擁有不同的玩法,而他們就用同乙個模型,學習了7個不同的遊戲,並且其中3個都表現的比人更優秀!

這是歷史性的一刻,作為面向通用ai的第一步:乙個ai可以在不同的環境中工作,而不是被嚴格的限制在某個特定規則下(就像之前的象棋ai)。之後他們的**「human-level control through deep reinforcement learning」被發表在nature上,這是當下最具權威的科學雜誌之一。在這篇**中,他們應用了同樣的模型在49個不同的遊戲中並且半數都達到了超人水準。

當關於監督學習和無監督學習的深度學習模型已經在社會上被廣泛應用時,深度強化學習仍然是個迷。在這篇文章中我將會試圖揭秘這項技術並且讓大家理解其背後的理論基礎。本文面向的讀者是那些已經有關於機器學習和神經網路的基礎,但是還沒有時間來研究強化學習的吃瓜群眾。

1.什麼是強化學習的主要挑戰:在這裡,我們將會涉及證明 分布問題 和 探索-利用兩難問題

2.如何給出強化學習的數學公式:我們將會介紹馬爾科夫決策過程並且以此論證強化學習的理論依據

4.如何評估或漸進未來獎勵:簡單的基於表的q-learning演算法將在這裡進行闡述

5.如果我們的狀態空間過於龐大怎麼辦:這裡我們看如何用乙個(深度)神經網路來替代q表

6.還有什麼技巧可在實際應用時使用:經驗回放技巧將在這裡討論,它將使學習的神經網路變得穩定

7.這樣就足夠了嗎:最後我們將會考慮一些關於 探索-利用 兩難問題的簡單解決方法

深度強化學習

這是寫給自己看的,大佬請忽略 深度學習和其他機器學習演算法最大的不同在於如何找到特徵,而特徵的抽取過程就是乙個抽象的全過程。以往機器學習演算法的特徵抽取都是對一類問題有解,比如k means等聚類。深度學習抽象模擬了人類神經元傳遞和連線方式,理論上可以解決多種分類問題和 問題,甚至研究未知領域。深度...

深度強化學習

一 簡介 1 深度強化學習出現的原因 傳統的強化學習中當狀態和動作空間是離散且維數不高時可使用q table儲存每個狀態動作對的q值。然而比較複雜的 更加接近實際情況的任務則往往有著很大的狀態空間和連續的動作空間,這種情況下使用q table不現實。同時實現端到端的控制也是要求能處理高維的,如影象 ...

深度強化學習

強化學習 reinforcement learning 與深度學習同屬機器學習的範疇,是其中 一 個重要的分支,主要用來解決連續決策的問題。強化不像無監督學習那樣完全沒有學習目標,也不像監督學習那樣有非常明確的目標 如影象分類問題中的label 強化學習的目標是不明確的,模型只會向著能夠得到更多獎勵...