Markov過程(馬爾科夫過程)

2021-08-02 21:23:26 字數 511 閱讀 2740

剛剛在刷杭電題的時候看到的,似乎也是乙個很有意思的東西,有點博弈論的感覺

母題的意思是有賭徒甲有資本a元,賭徒乙有資本b元,兩人進行賭博,每賭一局輸者給贏者1元,沒有和局,直賭至兩人中有一人輸光為止。設在每一局中,甲獲勝的概率為p,乙獲勝的概率為q=1-p,求甲先輸光的概率。

過程一大堆看不懂又麻煩,直接上結果吧:

假設總資產是c=a+b;

p==q時:

甲先輸光的概率是:b/c;

乙先輸光的概率是:a/c;

p!=q時:

甲先輸光的概率是:((q/p)^a-(q/p)^c)/(1-(q/p)^c);

乙先輸光的概率是(1-(q/p)^a)/(1-(q/p)^c);

其中甲先輸光的概率+乙先輸光的概率==1;

馬爾科夫過程,馬爾科夫獎勵過程和馬爾科夫決策過程

馬爾科夫決策過程是強化學習中的乙個基本框架,用來表示agent與環境的互動過程 agent觀測得到環境的當前狀態之後,採取動作,環境進入下乙個狀態,agent又得到下乙個環境狀態的資訊,形成乙個迴圈迴路。在理解馬爾科夫決策過程之前,首先要理解馬爾科夫 馬爾科夫獎勵過程。1.馬爾科夫過程 滿足馬爾科夫...

馬爾科夫決策過程

1.能夠檢測到理想狀態 2.可以多次嘗試採取不同動作 3.系統的下乙個狀態只與當前狀態有關,而與之前的狀態無關。在決策過程中還和當前採取的動作有關。s 表示狀態集 a 表示一組動作 p 表示狀態轉移概率。psa表示在當前狀態s下,執行動作a,轉移到其他狀態的概率。r 獎勵還是。表示agent採取某個...

簡述馬爾科夫決策過程(上)

在人工智慧中,大家可能知道兩種技術,第一是機器演算法,第二是深度學習。而在深度學習中有強化學習和突破學習這兩種技術。這兩種技術給深度學習帶來了很大的幫助。而強化學習中有乙個技術,那就是馬爾科夫決策過程,那麼什麼是馬爾科夫決策過程呢?下面我們就給大家介紹一下這個內容。初聽馬爾科夫決策過程,相信大家也是...