貝爾曼方程（Bellman Equation）

貝爾曼方程（bellman equation）也被稱作動態規劃方程（dynamic programming equation），由理查·貝爾曼（richard bellman）發現，由於其中運用了變分法思想，又被稱之為現代變分法。

貝爾曼方程（bellman equation）也被稱作動態規劃方程（dynamic programming equation），由理查·貝爾曼（richard bellman）發現。

貝爾曼方程是動態規劃（dynamic programming）這些種數學最佳化方法能夠達到最佳化的必要條件。此方程把「決策問題在特定時間怎麼的值」以「來自初始選擇的報酬比從初始選擇衍生的決策問題的值」的形式表示。藉此這個方式把動態最佳化問題變成開簡單的子問題，而這些子問題遵守從貝爾曼所提出來的「最佳化還原理」。

貝爾曼方程最早應用在工程領域的控制理論和其他應用數學領域，而後成為經濟學上的重要工具。

幾乎所有的可以用最佳控制理論（optimal control theory）解決的問題也可以通過分析合適的貝爾曼方程得到解決。然而，貝爾曼方程通常指離散時間（discrete-time）最佳化問題的動態規劃方程。

處理連續時間（continuous-time）最佳化問題上，也有類似那些偏微分方程，稱作漢密爾頓-雅克比-貝爾曼方程（hamilton–jacobi–bellman equation，hjb equation）。

貝爾曼方程（Bellman Equation）

貝爾曼方程 Bellman Equation

貝爾曼方程（Bellman Equation）

貝爾曼方程怎麼解強化學習系列（下）貝爾曼方程

貝爾曼方程（Bellman Equation）

貝爾曼方程 Bellman Equation

貝爾曼方程（Bellman Equation）

貝爾曼方程怎麼解 強化學習系列（下） 貝爾曼方程

相關推薦

貝爾曼方程怎麼解強化學習系列（下）貝爾曼方程