多智慧型體強化學習系列 開貳錘 ECKai

2021-10-24 02:57:38 字數 434 閱讀 1912

多智慧型體強化學習入門(一)——基礎知識與博弈

多智慧型體強化學習入門(二)——基礎演算法(minimax-q,nashq,ffq,wolf-phc)

多智慧型體強化學習入門(三)——矩陣博弈中的分布式學習演算法

多智慧型體強化學習入門(四)——maddpg演算法

多智慧型體強化學習入門(五)——qmix演算法分析

多智慧型體強化學習入門(六)——mfmarl演算法(mean field multi-agent rl)

多智慧型體強化學習入門(七)——ac for cdec-pomdp 大規模規劃學習演算法

多智慧型體強化學習入門(八)——圖卷積強化學習dgn

多智慧型體強化學習入門(九)——注意力圖網路的多智慧型體博弈

附:強化學習——drqn分析詳解

1. eckai - 知乎

2. 開貳錘_貳錘_csdn部落格

多智慧型體強化學習環境

環境是強化學習的核心要素之一。不同的環境一直是研究新的強化學習演算法的動力。但是讓智慧型體和真實環境互動的代價是很大的,不但費時費力,甚至有的時候根本不可能進行互動。現在的多智慧型體強化學習和強化學習早期境遇很像,只有較少的環境可用。另外在不同的智慧型體之間分享資訊的設定範圍可能很廣,有些環境涉及通...

多智慧型體強化學習筆記 01

跟單智慧型體強化學習相比,多智慧型體強化學習的入門似乎更難,想了想覺得有以下幾個方面的原因 1 多智慧型體強化學習研究成果較少,沒有一本經典的系統的書籍來介紹。而單智慧型體強化學習演算法有本神作,即sutton的 reinforcement learning an introduction 有這本神...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...