推薦系統（1）

主要思想：向顧客 \(x\) 推薦與之前被 \(x\) 高度評價的商品相似的商品

步驟item presentation

為每個item抽取出一些特徵來表示此item（item profile）

文字挖掘常用啟發式方法： \(tf-idf\)

profile learning（典型的監督分類問題）

利用乙個使用者過去喜歡 / 不喜歡的item的特徵資料，來學習出此使用者的喜好特徵（user profile）

recommendation generation

\(tf-idf\) （term frequency * inverse doc frequency）詞頻-逆文件頻率

\[tf-idf score: w_ = tf_ \times idf_i

\]\(i\) ：feature；\(j\) ：item；\(n\) ：total number of docs

\[tf_ = \frac}}

\]逆文件頻率idf：總檔案數 / (包含該給定詞的文件化數+1)，再取對數（idf越大，表明詞條類別區分能力好）

\[idf_i = log}

\]profile的可能性

**profile \(x\) 和item特徵集合 \(i\) 的相關度：\(u(x, i) = cos(x, i) = \frac\)

pros vs. cons

優點：缺點：

主要思想：對於使用者 \(x\)，找到\(n\)個與 \(x\) 有相似評價的使用者，基於這\(n\)個使用者的評價估計 \(x\) 的評價

找相似使用者

對於使用者 \(x\)，其評價向量為 \(r_x\)

從相似度到推薦

\(r_x\) ：使用者\(x\)的評價；\(n\) ：\(k\)個評價過item \(i\)的最相似使用者；\(s_ = sim(x, y)\)：\(x\)和\(y\)的相似度

\(r_ = \frac\sum_r_\) ，\(x\)對\(i\)的評價，即\(y\)個使用者對\(i\)評價的均值

\(r_ = \fracs_·r_}s_}\) ，即\(y\)和\(x\)的相似度越高，其評價權重越大

\(\cdots\)，還有很多種其他的**選擇。

item-item 協同過濾

對於item \(i\)，找到其他相似的item，基於其他相似item的評分估算user \(x\) 對item \(i\)的評分

\[r_ = \fracs_·r_}s_}

\]其中\(n\)是與\(i\)相似的被\(x\)評價過的item集合。

在實踐中，對偏差進行建模，得到更好的估計：

\[r_ = b_ + \fracs_·(r_-b_)}s_}

\]其中\(b_ = \mu + b_x + b_i\)，即baseline estimate for \(r_\)，\(\mu\)為所有評分平均值，\(b_x\)為user評分偏差，\(b_i\)為item評分偏差。

user-user 系統過濾

同上在實際中，item-item比user-user表現更好，因為item的簡單的，user有不同的口味

pros vs. cons

優點：缺點：

混合方法評價

用ground truth作為test data set，看恢復精度如何

0/1模型

**錯誤

沒有關注到的點：

實際上，我們只關心評價高的。

複雜度 / 效能

找到最相似的k個使用者花費巨大：\(o\|x\|\)（可以預先計算）

處理手段：

提示下節講

推薦系統（1）

推薦系統（1）推薦系統概述

推薦系統1

推薦系統（1）

推薦系統（1）

推薦系統（1） 推薦系統概述

推薦系統1

推薦系統（1）

相關推薦

推薦系統（1）推薦系統概述