dqn推薦系統 基於強化學習DQN的智慧型體信任增強

2021-10-12 23:45:22 字數 1022 閱讀 8837

基於強化學習

dqn的智慧型體信任增強

亓法欣童向榮

於雷【期刊名稱】

《計算機研究與發展》【年卷

期】2020(057)006

【摘要】

信任推薦系統是以社交網路為基礎的一種重要推薦系統應用

其結合用

戶之間的信任關係對使用者進行專案推薦

但之前的研究一般假定使用者之間的信任

值固定無法對使用者信任及偏好的動態變化做出及時響應

進而影響推薦效果實際上

使用者接受推薦後

當實際評價高於心理預期時

體驗使用者對推薦者的信任將

增加反之則下降

針對此問題

並且重點考慮使用者間信任變化過程及信任的動態

性提出了一種結合強化學習的使用者信任增強方法

因此使用最小均方誤差演算法研究

評價差值

對使用者信

任的動態

影響利用

強化學習

方法deep

q-learning(dqn)

模擬推薦者在推薦過程中學習使用者偏好進而提公升信任值的過程

並且提出了乙個多項式級別的演算法來計算信任值和推薦

可激勵推薦者學習使用者

的偏好並使使用者對推薦者的信任始終保持在較高程度

實驗表明

方法可快速響

應使用者偏好的動態變化

當其應用於推薦系統時

相較於其他方法

可為使用者提供

更及時、更準確的推薦結果

【總頁數】

頁(1227-1238)

多智慧型體系統

強化學習

信任深度q學習

最小均方誤差方法

【作者】

亓法欣童向榮

於雷【作者單位】

煙台大學計算機與控制工程學院

山東煙台

264005;

紐約州立大

學賓漢姆頓分校電腦科學系

紐約州賓漢姆頓市

【正文語種】

中文

深度強化學習 (三)DQN

強化學習是乙個馬爾科夫決策過程,它的目標是追求累計回報最大化max,值函式v s 是對狀態s能獲得的累計回報的估計,也就是v s e gt st s 根據貝爾曼方程v st 與v st 1 的關係為 v st e rt 1 r v st 1 st s 引入動作後有動作 值函式 q st,at q s...

強化學習 DQN 演算法改進

dueling dqn 是一種基於 dqn 的改進演算法。主要突破點 利用模型結構將值函式表示成更加細緻的形式,這使得模型能夠擁有更好的表現。下面給出公式,並定義乙個新的變數 q s t,a t v s t a s t,a t 也就是說,基於狀態和行動的值函式 q 可以分解成基於狀態的值函式 v 和...

強化學習 二 DQN深度強化學習網路

dqn,deep q network,是融合了q learning和神經網路的方法 使用q table這樣乙個 來儲存state和action的q值,在複雜的情境下,狀態可以多到比天上的星星還要多,如果全用 來儲存,計算機是儲存不下的。並且在如此巨大的 中搜尋對應狀態也是一種很耗時的事情 不過神經網...