推薦系統（1）

電影

愛情劇情

科幻戰爭

中國日本

南韓美國黑豹0

1110

001霍位元人01

0100

01從你的全世界路過11

0010

00復仇者聯盟401

1100

01其中0代表不屬於標籤特徵，1代表屬於標籤特徵

假設現有使用者a，使用者a喜歡物品c，則基於內容的推薦系統演算法會將與物品c相似的物品推薦給使用者a，打個比方說：使用者a喜歡電影《黑豹》，而這部電影在資料庫中所賦予的標籤為《科幻》《美國》《漫威》，則該推薦系統則會將近期發布的電影《復仇者聯盟4》，因為這兩部電影在資料庫中的標籤相似度很大，所以說該系統會認為既然使用者a喜歡前者，理所當然也應喜歡後者。

在此，我將基於內容的推薦系統主要步驟分為4個步驟：

1----特徵的提取：提取出待推薦物品的的屬性特徵，例如上面所提到的電影標籤（《種類》,《國家》,《出版公司》），我在下乙個章節中會詳細介紹提取屬性特徵的方法。

2----使用者偏好的計算：利用乙個使用者過去的顯式評分或者隱式操作記錄，計算使用者在不同特徵上的偏好分數。計算偏好分數的方法，可以直接使用統計特徵，即計算使用者在不同標籤下的分數，例如上文中的例子，使用者對電影《黑豹》的篇好分數可以計算為：$[0.3,0.5,0.6,0.3,0.4,0.1,0.4,0.2]*[0,1,1,1,0,0,0,1]^t =1.6 $其中前乙個矩陣代表各類屬性在分類時的比重大小，而通過計算各個電影的偏好分數，選擇相距較小的電影作為候選電影，另外我想說的一點是，在某些推薦的場景下，對時間比較敏感，使用者的興趣遷移比較快，在計算偏好的分的時候會增加時間因子.

3—內容的召回：將待推薦物品的特徵與使用者偏好的分匹配，取出使用者最有可能喜歡的物品池。

4—物品的排序：按使用者喜歡的物品池，可能物品池中會有很多的item。這時候我們需要對其進一步進行排序，例如與電影《黑豹》偏好分數相近的有《復仇者聯盟4》與《霍位元人》，但是霍位元人在某些電影評分**中的評分低於復仇者聯盟（個人覺得不太可能），所以就推薦前者。

推薦系統中的特徵總體而言可以分為兩大類：

1，結構化的特徵：指的是可以按照固定格式表示的屬性特徵，例如上文中的電影的特徵表示（用矩陣[0,1,1,1,0,0,0,1]）

2，非結構化的特徵：相反，指的是不能按照固定格式表示的屬性特徵，最常見的資料就是文章，例如對推薦系統文章，我們往往會把文字上的非結構化特徵轉化結構化特徵，然後加入到模型中使用。最常見的就是基礎統計法，詞頻統計法（tf-idf）

接下來的文章中我會簡要介紹一些基礎統計法與詞頻統計法與其他的一些推薦系統的演算法。

推薦系統（1）

推薦系統（1）推薦系統概述

推薦系統1

推薦系統（1）

推薦系統（1）

推薦系統（1） 推薦系統概述

推薦系統1

推薦系統（1）

相關推薦

推薦系統（1）推薦系統概述