強化學習 1 1 0 強化學習介紹

2021-08-25 19:47:40 字數 638 閱讀 1006

abstract:本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。

keywords:reinforcement learning,situation,action,enviroment,closed-loop,optimal control,markov decision processes,mdps

中文翻譯reinforcement learning為強化學習,不知道為啥這麼翻譯,也沒想去了解給這個詞命名的人是否非常了解這個領域的知識,既然這麼叫了那就這樣吧。

上面談到命名是為了介紹其內容,有些東西的命名,可以直接看出其內容,但是強化學習,顯然不是這類的,而「土豆片」,「薯條」這種名字則可以。

reinforcement learning 像machine learning一樣,名字裡都有learning這個詞,表明,rl也是乙個問題和解決方案的集合。

值得注意的是,rl屬於machine learning的一種。

對於問題和解決方案的集合這種描述,我們有很多經典的例子:

「擬合房子的面積大小和**」的問題

「識別手寫數字」的問題

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習介紹

策略 policy 獎賞訊號 reward 值函式 value function,以及可選的環境模型 model policy 定義了agent在一給定時間的決策方式。policy是從感知到環境的狀態,到在這些狀態下應該採取的動作的對映。一般而言策略是概率性的,指定了執行每個動作的概率。reward...

強化學習概念介紹

是智慧型體 agent 以試錯的方式進行學習,通過與環境進行互動獲得獎勵指導行為,目標是尋找乙個最優策略,使智慧型體獲得最大的獎勵。注意,agent的動作的影響不止立即獲取得到的獎勵,而且還影響接下來的動作和最終的獎勵 envirnment reward,action,state,policy 確定...