時間序列的訓練策略過濾學習與強化學習

資料驅動的時間序列建模方法在經濟學的市場**和機械人系統**等各種應用中都很重要。然而，傳統的為i.i.d.資料設計的有監督機器學習技術在這些序列問題上常常表現不佳。本文提出無論是對於**、濾波還是強化學習，直接訓練遞迴**過程本身，而不是建立生成概率模型，可以有效地實現時間序列和序列**。

為此，我們介紹了一種用於學習時間序列模型的新訓練演算法，data asdemonstrator (dad)，該演算法在理論和實驗上改進了遞迴神經網路、核回歸器和隨機森林等模型的多步**效能。此外，實驗結果表明dad可以加速基於模型的強化學習。接下來，我們展示了隱態時間序列模型可以以一種監督的方式有效地學習，其中的充分狀態引數化可能是未知的。我們的**狀態推理機（psims）方法，通過識別重複的隱藏狀態作為對未來觀測統計資料的**信念，直接優化dad風格的訓練過程，而不會陷入區域性最優的推理效能。可觀測量**作為構建ai系統的通用語言，是我們學習框架的基礎。我們通過這種總體思想提出了三種擴充套件方案來適應各種問題。第乙個目標是提高更複雜遞迴神經網路的訓練時間和效能；第二個目標將psim框架擴充套件到受控的動態系統；第三個目標是訓練用於強化學習問題的遞迴架構。

完整資料領取

時間序列的訓練策略過濾學習與強化學習

強化學習訓練過程感知與理解

RL（九）基於策略的強化學習

基於策略搜尋的強化學習方法

時間序列的訓練策略 過濾學習與強化學習

強化學習 訓練過程感知與理解

RL（九）基於策略的強化學習

基於策略搜尋的強化學習方法

相關推薦

時間序列的訓練策略過濾學習與強化學習

強化學習訓練過程感知與理解