百萬使用者,八十萬商品,如何計算基於物品的協同過濾

2021-09-25 17:57:03 字數 553 閱讀 2002

問題描述:

資料報含了一百四十萬使用者對80萬商品的打分。要利用基於物品的協同過濾來計算。如果直接兩兩計算140萬維的向量相似度,肯定不行啊。

問題分析:

每個物品的向量雖然是140萬維的,但是其實給乙個物品打分的使用者其實不多,這個矩陣是非常稀疏的。而且根據長尾問題來說,大部分物品只有很少的使用者有過評分。

總結來說就是每個物品評分的使用者遠遠小於140萬,每個使用者評價過的商品遠遠小於80萬。所以我們的問題就轉換為如何處理這個稀疏的矩陣。

解決方法:

在計算相似度時,選用了夾角余弦(因為相比于杰卡德,夾角余弦考慮了評分的大小,實測效果更好)

第一步首先按商品id進行group by,資料轉換為,商品:評價過該商品使用者。然後計算商品向量的長度,也就是使用者評分的平方之和再開平方。

第二步,按使用者id進行group by,將資料轉換為,使用者id :該使用者評價過得商品。然後計算兩個商品的相似度。得到:評分

第三步,累加商品對的評分,除以兩個商品的向量長度得到相似度。

站內信設計思路之己見(基於上百萬使用者)

大家都知道站內信,分為少量 10 999使用者 中量 1000 99999使用者 大量 100w使用者 不同的站內信架構,消耗儲存空間,和效率也是不同的。本人基於最大的架構,來於大家共同討論,站內信這個小功能,究竟要怎麼設計,才能更節約空間。下面是基於我個人的一些見解 站內信的功能是 1 使用者與使...

Opera瀏覽器同步服務被黑,百萬使用者密碼遭洩露

8月26日晚,知名瀏覽器廠商opera發布公告,表示其雲同步服務遭遇黑客攻擊,開啟了瀏覽器同步功能的使用者將受影響。opera公司的一台用於儲存使用者同步資料的伺服器被攻破,如果使用者開啟了跨平台資料同步功能,則儲存在瀏覽器中的使用者名稱密碼以及其他敏感資料都可能已被黑客獲取。目前opera瀏覽器緊...

Opera瀏覽器同步服務被黑,百萬使用者密碼遭洩露

8月26日晚,知名瀏覽器廠商opera發布公告,表示其雲同步服務遭遇黑客攻擊,開啟了瀏覽器同步功能的使用者將受影響。opera公司的一台用於儲存使用者同步資料的伺服器被攻破,如果使用者開啟了跨平台資料同步功能,則儲存在瀏覽器中的使用者名稱密碼以及其他敏感資料都可能已被黑客獲取。目前opera瀏覽器緊...