強化學習1 什麼是強化學習

2021-10-10 10:26:37 字數 700 閱讀 6069

強化學習(reinforcement learning, rl)，一般也稱作增強學習，和心理學、動物行為的研究等領域有比較久的淵源。

心理學中，「強化」指生物受到外界環境中的某些刺激後，自覺或者不自覺調整應對策略，達到趨利避害。

舉個例子。馬戲團訓練動物時（比方說猴子），訓導員首先會發出某種指令（比方說抬一下手，表示希望猴子跳一下），動物接收到這個指令後，如果做出了正確的動作，會得到一定的獎勵（比方說一根香蕉）。這樣的過程重複很多次之後，猴子會學會一種策略，即訓導員每抬一下手，我就跳一下，這樣就可以吃到更多的香蕉；

上面這個例子中，訓練過程就是心理學裡的「強化」現象，強化行為的刺激被稱為強化物（「reinforceor」）,猴子策略的改變過程也就是強化學習的過程；

考慮這個問題之前，我們不妨先回憶一下機器學習中另外兩個大類：監督學習和無監督學習（以及它們的折中，半監督學習，或者叫弱監督學習）。

而對於強化學習，研究的是完整的互動過程中的決策問題，具有動態的特點，需要用發展的眼光、長遠得看待問題 →_→就像下象棋一樣，對於某乙個棋局，下一步應該怎樣走，需要以最終贏棋為目的，相比而言，最近幾步的得失反而沒有那麼重要。因此，強化學習領域中涉及的關鍵要素相對較多：

按演算法

初識強化學習，什麼是強化學習？

相信很多人都聽過機器學習和深度學習但是聽過強化學習的人可能沒有那麼多，那麼，什麼是強化學習呢？強化學習是機器學習的乙個子領域，它可以隨著時間的推移自動學習到最優的策略。在我們不斷變化的紛繁複雜的世界裡，從更廣的角度來看，即使是單純的靜態的輸入輸出型問題也會變成動態的問題。例如，對於乙個...

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習系列1 強化學習簡介

2015年10月，alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝，其後的深度強化學習也隨之火了起來。從本期開始開個新坑，一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...