顯因子模型簡介

2022-01-23 22:33:03 字數 3403 閱讀 2163

sigir 2014在推薦系統方面收錄了三篇很有價值的**,提出了新的演算法框架。在此介紹第一種演算法框架(來自**:explicit factor models for explainable recommendation based on phrase-level sentiment analysis,基於短語級情感分析的可解釋型推薦模型——顯因子模型)。如與本文有不同理解,不吝賜教。

一、概述

efm ( explicit factor models,顯因子模型),是針對lfm (latent factor models,隱因子模型) 的不足而設計的。

lfm的特點如下:

a. 通過分類抽象出隱因子空間。在分類過程中,我們不需要關心分類的角度,結果都是基於使用者打分自動聚類的。分類的粒度通過設定lfm的最終分類數來控制。

b. 對於每個物品,並不是明確地劃分到某一類,而是計算其屬於該類的程度。

c. 對於每個使用者,計算他對每個類的興趣度。

不足在於:

<2>因為類別是抽象出來的,沒有明確的含義,所以向使用者推薦物品時,無法解釋推薦理由。

efm的特點如下:

b. 對於每個物品,計算它對每個特徵的包含程度。

c. 對於每個使用者,計算他對每個特徵的喜好程度。

e. 向使用者推薦購買物品的同時,也建議使用者不要購買某些物品。

優點在於:

<2>因為物品的特徵已經被顯式的抽取出來,所以向使用者推薦商品時,可以直觀地解釋推薦理由。從而幫助使用者更快決定是否購買;特別是建議使用者不要購買某些物品,有助於提高使用者對系統的信任度。

二、efm演算法框架

1. 構建情感詞典

2. 構建矩陣

efm需要構建三個矩陣。

第乙個是使用者打分矩陣a,表示第 i 個使用者對第 j 個物品打的分數。由於使用者不一定對所有物品都打過分數,所以沒打分則記為

第二個是使用者-特徵關注矩陣x,表示第 i 個使用者對第 j 個特徵的喜好程度:

其中,n表示使用者打分的最高分數(一般為5分)。為了使該矩陣的每個值與使用者打分矩陣的值範圍都是[1, n],用sigmoid函式規範引數的取值。

第三個是物品-特徵質量矩陣y,表示第 i 個物品包含第 j 個特徵的程度:

其中,k表示第 i 個物品的第 j 個特徵被使用者提到了幾次。k次提到則被表示成k個特徵/情感對,計算這k個對的取值(1或-1)的平均值,則為

3.  估計矩陣x、y、a的缺失值

矩陣x、y中的非零數表示已有的使用者或物品與特徵之間的關係,而則表示尚未清楚的缺失值。為了估計這些缺失值,則採用最優化損失函式的方法。

損失函式是把乙個事件對映能表示與其相關的經濟成本或機會成本的實數的一種函式。在統計學中,損失函式經常用來估計引數。損失函式的未知引數用θ表示,決策的方案(已獲得的實際值)用d表示,常見的損失函式有兩種:

二次損失函式:l(θ,d) = c(θ − d)2

絕對損失函式:

該演算法採用的是二次損失函式。採用最優化損失函式的方法,是指最小化估計值與真實值的差距。所以x、y的最優化損失函式如下:

與lfm相比,efm已經抽取出了顯式的特徵。我們假設一些特徵屬於某一型別,而使用者喜歡這一型別或者物品包含這一型別,由於特徵是顯式的,因而引入「顯因子」的概念。上面表示式中的r 就是指顯因子的數量

同理,估計打分矩陣a的缺失值也會用到顯因子。同時,考慮到使用者在打分時還會考慮到其他一些潛在的因素,因此也引入了lfm中用到的隱因子

表示隱因子的數量。a的最優化損失函式為:,,

然後把這兩個損失函式合併為:

其中,是防止過擬合的正則化項。

( * )式通過拉格朗日函式和kkt條件的推導後,得到矩陣v、u1、u2、h1、h2的更新公式,如下所示:

設定迭代次數進行迭代,或者在引數收斂後,得到以上5個矩陣的引數值,從而估計x、y、a的缺失值:

4. top-k推薦

向量的行表示第 i 個使用者對每個特徵的喜好程度,選取其中引數值最大的k個特徵的下標,用

表示。然後用以下方法計算第 i 個使用者對第 j 個物品的打分:

其中,,具體的值由實驗確定。在大多數打分系統中,最高分數為5,所以n=5。

最後,選擇打分最高的前k個物品推薦給使用者,並根據特徵向使用者解釋推薦理由。

CSS盒子模型簡介

1.基本概念 首先,什麼是盒子模型呢?所有的html元素都可以看作是盒子,顧名思義,就像是對元素進行了乙個包裝,豐富了元素的內容,方便了設計與布局。盒子模型 box model 具體包括了外邊距 margin 邊框 border 內邊距 padding 和內容 content 下面以具體的例項來說明...

list 分組 因子模型(1) Fama三因子分組

因子的提出 運用計量進行檢驗時,公式為 此時 顯著不為0,證明定價不準確。不是 fama等按照市值等將 進行分組,r p r f發現 和 的關係消失了。按照capm理論,如果 因子的含義 smb small minus big 小市值公司的超額收益 大市值公司的超額收益hml high minus ...

CSS魔法堂 盒子模型簡介

一 w3c標準的盒子模型 二 ie盒子模型 三 兩種模型的區別 w3c標準盒子模型 外盒模型 元素空間寬度 content width padding border margin的寬度 元素空間高度 content width padding border margin的高度 內盒模型 元素寬度 c...