利用社交網路資料進行推薦

原創：石曉文

本篇的思維導圖如下：

一般來說，有3種不同的社交網路資料：

雙向確認的社交網路資料：一般通過無向圖表示

單向關注的社交網路資料：使用者關係是單向的，可以通過有向圖表示

基於社群的社交網路資料：比如豆瓣小組

社交網路資料中也存在長尾分布，主要根據使用者的入度和出度，使用者的入度反映了使用者的社會影響力，而使用者的出度代表了乙個使用者關注的使用者數。從下圖可以看出，乙個社交網路中影響力大的使用者總是佔少數，同時關注很多人的使用者佔少數，而絕大多數只關注很少的人。

使用者入度分布

使用者出度分布

當然，社會化推薦有時候也有一定的缺點，主要是不一定提高推薦演算法的離線精度，因為社交網路中好友關係不是基於共同興趣產生的，所以使用者好友的興趣往往和使用者的興趣不一致。

其中out(u)是使用者u的好友集合，如果使用者v喜歡物品i，則rvi=1，否則rvi=0。不過，即使都是使用者u的好友，不同的好友和使用者u的熟悉程度和興趣相似度也是不同的。因此，我們應該在推薦演算法中考慮好友和使用者的熟悉程度以及興趣相似度:

這裡，wuv 由兩部分相似度構成，一部分是使用者u和使用者v的熟悉程度，另一部分是使用者u和用戶v的興趣相似度。熟悉度可以用使用者之間的共同好友比例來度量：

而興趣相似度可以通過和usercf類似的方法度量，即如果兩個使用者喜歡的物品集合重合度很高，兩個使用者的興趣相似度很高。

在社交**中存在兩種關係，一種是使用者對物品的興趣關係，一種是使用者之間的社交網路關係。使用者的社交網路可以表示為社交網路圖，使用者對物品的行為可以表示為使用者物品二分圖，而這兩種圖可以結合成乙個圖。如下圖所示：

在定義完圖中的頂點、邊和邊的權重後，我們就可以利用基於隨機遊走的personalrank圖排序演算法給每個使用者生成推薦結果。

基於社交網路的推薦可以很好模擬現實社會，因此本文簡單介紹下如何利用社交網路資料進行個性化推薦。一般獲取社交網路資料的途徑有電子郵件使用者註冊資訊使用者的位置資料論壇和討論組即時聊天工具和社交又分為以社會身份為主的社交圖譜和以興趣為主的興趣圖譜社交網路資料一般分為三類，一類是雙向確認的社交...

我們平時光計算使用者的關係親密度，比如兩者的sns互動次數媒介場景關係度地理位置相關度，這些缺陷都很依賴使用者之間的活躍程度。後來又有人提出了好友的好友圈子共同興趣共同話題等方面角度進行研究。實際場景中我們也是會結合社交興趣兩點平衡，找到乙個比較融合的權衡，推薦使用者感興趣的cont...