強化學習之Q learning演算法

2021-08-20 20:16:07 字數 797 閱讀 1551

以前在阿里雲上面搭了乙個wordpress部落格,最近快畢業了,阿里雲真的很貴,所以轉到csdn上寫部落格,主要是為了方便以後查詢。

q-learning演算法是強化學習的一種演算法,強化學習目前主要應用到遊戲中,主要是目的是訓練乙個知道怎麼做才能得到高分的model。強化學習的介紹很多,李巨集毅在上的課程就做了一些介紹,此外。強化學習和深度學習究竟是什麼關係??很多地方所增強學習(就是強化學習,reinforcement learning)是深度學習的一種,其實不能這麼說,強化學習可以結合深度學習演算法,比如說google的dqn專案就是使用卷積神經網路學習乙個自動打遊戲的模型,文章較好的介紹了深度學習和強化學習的關係。

alphago是強化學習的乙個例子,個人感覺,監督學習不能夠實現真正的人工智慧,需要一些半監督,無監督學習方法才有可能實現真的的人工智慧。強化學習感覺和自動機的原理差不多,都是在一些state裡面採取一些action,然後不斷的進行。只不過自動機沒有reward這個東西,在強化學習中,每採取一些action,環境(environment)會給一些reward,然後我們可以用於對modle進行更新。

q-learning演算法的簡介可以檢視主要詳細介紹下面幾點:

1:q-table的更新原則

這裡的r是reward,指的是每次進行一步的時候,environment所給的分數,和q(s,a)是不一樣的,使用乙個例子介紹了q-table的更新過程。

2:疑慮???

q-learning必須要知道所有的state和action,那麼訓練之後得到的實際上就是乙個能夠得到高reward的模型。能不能不指定state,那麼得到的model才能夠對未知的情況進行判斷。

增強學習(強化學習)算例之Q learning

我認為本文是學習率為1的q learning。為什麼這麼講呢?根據q learning演算法 程式設計師們有些什麼好玩兒的程式分享?嶽大禹的回答 看到這道題題主希望用簡單的例子介紹q learning,於是就想通過小鳥的例子,介紹一下q learning的過程。提到q learning,我們需要先了...

強化學習之Q learning

三要素 狀態 state 動作 action 獎賞 reward 更具具體情況自行進行給定。q更新公式 q是什麼?動作效用函式 action utility function 用於評價在某一狀態下採取某個動作的優劣。如果q訓練好了,之後 時就可以按照q進行選擇動作。詳解q更新函式 是學習速率 是折扣...

強化學習演算法 Q learning

q learning 演算法的步驟 1 給定引數lamda和獎勵矩陣r 2 令q為0 3 for each episode 3.1 隨機選擇初始的狀態s 3.2 未達到目標狀態,則執行以下幾步 1 在當前狀態s的所有可能行為中選取乙個行為a 2 按照q s,a r s,a lamda max,其中s...