強化演算法學習記錄 4

q-learning一步步更新q表，收斂速度慢，就是在當前狀態下探測後序狀態對當前狀態的影響，若可以得到n步狀態的評估，可以加速當前狀態的收斂。修改q(s,a)表的更新公式，

從公式中可以看出來由原來的學習一步變成要學習n步，這n步才使用貪婪策略來**未來n步每一步狀態的行為進行學習，這樣可以探索更遠距離的狀態對當前狀態的影響，更利於對當前狀態的評價，n的取值不可太大，不然就接近td演算法，需要對完整序列進行計算，效率低。如此更新還存在當未來狀態未被智慧型體發現時，只有**與環境行進n此互動才能計算，並且計算無意義。這是前向更新需要**未來狀態，後向更新只需要記錄進過的狀態、行為及回報就可以更新。只需要在q-learning演算法中加入後向更新函式就可以。在狀態s執行q-learning演算法b步驟後，遍歷記錄的之前狀態執行更新，

直至之前的n步更新：

與q-learning演算法的更新方式與了一些區別，不再使用貪婪策略進行需要下一狀態的**，因為這是已經發生了的行為，可直接使用。這是使用向後更新，在這q-learning演算法可以不必執行借助**下一步狀態的q(s,a)更新，即可去掉b步驟，此演算法便是sarsa(γ)演算法。從更新方式可以看出與sarsa演算法的相似，所以稱為sarsa(γ)演算法，sarsa演算法在q(s,a)表更新時不用**下一步狀態的行為，直接使用當前狀態的行為。

強化演算法學習記錄 4

演算法學習記錄

演算法學習 4

Manacher s演算法學習記錄

強化演算法學習記錄 4

演算法學習記錄

演算法學習 4

Manacher s演算法學習記錄

相關推薦