強化學習的另一種策略(一)

2021-09-11 04:01:01 字數 527 閱讀 7436

強化學習在人工智慧技術中雖然不是十分的突出,但是強化學習也是乙個十分重要的技術,是乙個不容忽視的內容。大家是否知道,其實,強化學習還存在著另外一種策略,那就是反向強化學習,在這篇文章中我們就簡單給大家介紹一下這種反向強化學習的內容。

首先我們給大家介紹一下反向強化學習基礎,反向強化學習也稱為模仿學習或學徒學習。在強化學習中,我們的基本思路是通過agent與環境的互動,根據環境對於agent在某一狀態下所採取動作的回報,對agent的策略進行更新,從而獲得最大化的長期期望收益。也就是說,強化學習通常是在回報已知的情況下求出值函式和策略。但是大家有沒有考慮過這麼一種情況,那就是如果回報我們無法獲得呢?反向強化學習使用了逆向思維,我們不通過回報求策略,而是反過來,根據策略求回報。這聽起來感覺是無法實現的,其實並不是這樣的,我們想通過互動獲得回報,就是為了求解更好的策略,現在有了策略,我們為什麼還要去求回報呢?因為很多時候,我們擁有的不是最優的策略,而是基於這些策略的一些樣本。

另一種尊重

上中學的時候,有一節課印象非常深刻。老師問我們如果無意闖入乙個房間,發現房間裡有一位女士正在洗澡,這時應該怎麼辦?有同學回答就當什麼也沒看見,退出房間。還有同學回答 說聲對不起!女士。然後退出去。老師笑了笑說,還有更好的答案,那就是 對不起,先生!有一對結婚多年的夫妻,有一次出差在外的妻子有一件急事...

另一種勝利

另一種勝利 written by allen lee 剛才我的扣殺,出界了5.3厘公尺。雖然很可惜,但還是出界了,請確認下吧。幹 真是的,那些任性的傢伙!但是,到最後還只顧自己網球原則的正直笨蛋,和一定要用迴旋蛇標打中單人區的笨蛋,給我們看了場好比賽啊。龍崎 海棠和幹他們雖然輸了這場比賽,但他們堅持...

另一種table排序

click on the table header to sort in ascending order.last name first name birthday siblings smith john 7 12 1978 2johnson betty 10 15 1977 4henderson ...