利用社交網路資料

2021-08-20 14:26:32 字數 1866 閱讀 2613

基於社交網路的推薦可以很好模擬現實社會,因此本文簡單介紹下如何利用社交網路資料進行個性化推薦。一般獲取社交網路資料的途徑有電子郵件、使用者註冊資訊、使用者的位置資料、論壇和討論組、即時聊天工具和社交**(又分為以社會身份為主的社交圖譜和以興趣為主的興趣圖譜)。

社交網路資料一般分為三類,一類是雙向確認的社交網路資料(如qq好友),一類是單向關注的社交網路資料(如微博關注),另一類就是基於社群的社交網路資料(如貼吧)。

1. 基於鄰域的社會化推薦演算法

其中out(u)表示使用者u的好友集合,rvi表示使用者v對物品的感興趣程度,一般如果使用者v喜歡物品i 取值為1,反之為0。但是不同的好友其熟悉程度和興趣也是有區別的,因此可改寫公式為:

其中wuv由兩部分組成,一部分是使用者u和使用者v之間的熟悉程度(通過共同好友的數量來衡量),另一部分是使用者u和使用者v的興趣相似度(通過共同喜歡的物品數量來衡量)。計算公式如下。

其中n(u)表示使用者u喜歡的物品集合。

該演算法雖然看起來簡單,但是在實際系統中卻是很難操作的,主要是因為該演算法需要拿到使用者所有好友的歷史行為資料,這些記錄一般很龐大,很難都放在記憶體中,另一方面對於實時查詢也比較困難。一般有兩種解決辦法,第一種是兩處截斷,第一處截斷是只選取相似度較高的n個好友,第二處截斷是只選取好友的近期行為資料;第二種解決辦法是重新設計資料庫,為每個使用者設計乙個資訊牆。twitter關於社會化推薦的思路大致如下:

(1)首先為每個使用者維護乙個訊息佇列,用於儲存他的推薦列表;

(2)當乙個使用者喜歡乙個物品時,就將(物品id、使用者id和時間)這條記錄寫入到關注該使用者的推薦列表訊息佇列中;

(3)當使用者訪問推薦系統時,讀出他的推薦列表訊息佇列,對於這個訊息佇列中的每個物品重新計算該物品的權重。計算權重時需要考慮物品出現的次數、物品對應的使用者和當前使用者的熟悉程度、物品的時間戳。同時計算出每個物品被哪些好友喜歡過,用這些好友作為物品的推薦解釋。

與協同過濾推薦相比,社會化推薦雖然準確率和召回率較低,但其說服力較強。

2. 給使用者推薦好友

(1)基於內容的匹配

內容屬性主要包括:使用者人口統計學屬性(年齡、性別、學校、工作單位等)、使用者的興趣(喜歡過的物品或者發表過的言論)、使用者位置資訊等。

(2)基於共同興趣的好友推薦

(3)基於社交網路圖的好友推薦

主要通過計算使用者間的相似度來推薦,計算公式有以下三種。

對於使用者u和使用者v,利用共同好友比例來計算相似度(out(u)表示使用者u關注的使用者集合)。

對於使用者u和使用者v,利用共同粉絲比例來計算相似度(in(u)表示關注使用者u的使用者集合)。

第三種計算方式為

該計算方式會導致所有人都與名人有很大的相似度,因此修正公式為

利用社交網路資料進行推薦

原創 石曉文 本篇的思維導圖如下 一般來說,有3種不同的社交網路資料 雙向確認的社交網路資料 一般通過無向圖表示 單向關注的社交網路資料 使用者關係是單向的,可以通過有向圖表示 基於社群的社交網路資料 比如豆瓣小組 社交網路資料中也存在長尾分布,主要根據使用者的入度和出度,使用者的入度反映了使用者的...

社交網路與「資料寡頭」

一般認為的社交網路 去中心化 很大程度上是一種幻覺或誤解。每人都有麥克風,每人都是乙個中心,甚至每人都是乙個平台,只是被使用者終端所蒙蔽的表象 麻省理工大學教授蒂姆 伯納斯 李 tim berners lee 獲得今年的圖靈獎。日前有報道說,這位全球資訊網發明人認為,將大量的時間精力花在社交網路上,...

推薦系統實戰第六章 利用社交網路資料

推薦系統實戰第六章 利用社交網路資料 1 獲得社交網路資料的方式 1 電子郵件。電子郵箱的字尾,是都來自同乙個組織 公司等。2 使用者註冊資訊。使用者在哪家公司工作 學習過等。的社交網路資料。3 使用者的位置資料。ip位址 gps資料 4 論壇和討論組。是否對同樣的事情感興趣。5 即時聊天工具。6 ...