《推薦系統實踐》第三章 推薦系統冷啟動問題

2021-08-31 21:12:25 字數 2344 閱讀 6068

冷啟動問題(cold start)主要分3類。

(3)系統冷啟動:系統冷啟動主要解決如何在乙個新開發的**上(還沒有使用者,也沒有使用者行為,只有一些物品的資訊)設計個性化推薦系統,從而在**剛發布時就讓使用者體驗到個性化推薦服務這一問題。

一般來說,可以參考如下解決方案。

(2)利用使用者註冊時提供的年齡、性別等資料做粗粒度的個性化。

(4)要求使用者在登入時對一些物品進行反饋,收集使用者對這些物品的興趣資訊,然後給使用者推薦那些和這些物品相似的物品。

(5)對於新加入的物品,可以利用內容資訊,將它們推薦給喜歡過和它們相似的物品的使用者。

(6)在系統冷啟動時,可以引入專家的知識,通過一定的高效方式迅速建立起物品的相關度表。

使用者的註冊資訊分3種。

a、人口統計學資訊:包括使用者的年齡、性別、職業、民族、學歷和居住地。

c、從其他**匯入的使用者站外行為資料

(1) 獲取使用者的註冊資訊;

(2) 根據使用者的註冊資訊對使用者分類;

(3) 給使用者推薦他所屬分類中使用者喜歡的物品。

基於使用者註冊資訊的推薦演算法其核心問題是計算每種特徵的使用者喜歡的物品。也就是說,對於每種特徵f,計算具有這種特徵的使用者對各個物品的喜好程度p(f, i)。

p( f ,i)可以簡單地定義為物品i在具有f的特徵的使用者中的熱門程度:

為了消減熱門物品的影響,我們可以將p( f ,i)定義為喜歡物品i的使用者中具有特徵f的比例:

我們按照不同的粒度給使用者分類,對比了4種不同的演算法。

(3)agemostpopular:給使用者推薦對於和他同乙個年齡段的使用者最熱門的歌手,這裡我們將10歲作為乙個年齡段,將使用者按照不同的年齡段分類。

結果顯示:利用的使用者人口統計學特徵越多,越能準確地**使用者興趣。

對於這些通過讓使用者對物品進行評分來收集使用者興趣,從而對使用者進行冷啟動的系統,它們需要解決的首要問題就是如何選擇物品讓使用者進行反饋。

能夠用來啟動使用者興趣的物品需要具有以下特點。

(1)比較熱門:如果要讓使用者對乙個物品進行反饋,前提是使用者知道這個物品是什麼東西。

(2)具有代表性和區分性:啟動使用者興趣的物品不能是大眾化或老少咸宜的,因為這樣的物品對使用者的興趣沒有區分性。

(3)啟動物品集合需要有多樣性:在冷啟動時,我們不知道使用者的興趣,而使用者興趣的可能性非常多,為了匹配多樣的興趣,我們需要提供具有很高覆蓋率的啟動物品集合,這些物品能覆蓋幾乎所有主流的使用者興趣。

給定一群使用者,用這群使用者對物品評分的方差度量這群使用者興趣的一致程度。如果方差很大,說明這一群使用者的興趣不太一致,反之則說明這群使用者的興趣比較一致。通過如下方式度量乙個物品的區分度d(i):

如果這3類使用者集合內的使用者對其他的物品興趣很不一致,說明物品i具有較高的區分度。

首先會從所有使用者中找到具有最高區分度的物品i,然後將使用者分成3類。然後在每類使用者中再找到最具區分度的物品,然後將每一類使用者又各自分為3類,也就是將總使用者分成9類,然後這樣繼續下去,最終可以通過對一系列物品的看法將使用者進行分類。而在冷啟動時,我們從根節點開始詢問使用者對該節點物品的看法,然後根據使用者的選擇將使用者放到不同的分枝,直到進入最後的葉子節點。

對於itemcf演算法來說,物品冷啟動就是乙個嚴重的問題了。我們只能利用物品的內容資訊計算物品相關表,並且頻繁地更新相關表(比如半小時計算一次)。

從movielens資料集上的結果可以發現,contentitemknn的準確率和召回率僅僅優於random演算法,明顯差於itemcf演算法,甚至比mostpopular演算法還要差。不過在覆蓋率和流行度指標上contentitemknn卻優於itemcf。這主要是因為內容過濾演算法忽視了使用者行為,從而也忽視了物品的流行度以及使用者行為中所包含的規律,所以它的精度比較低,但結果的新穎度卻比較高。

如果看github資料集的結果,我們會發現完全相反的現象——contentitemknn在所有指標上都優於itemcf。這主要是因為github提供了乙個非常強的內容特徵,就是開源專案的作者。

如果使用者的行為強烈受某一內容屬性的影響,那麼內容過濾的演算法還是可以在精度上超過協同過濾演算法的。

讀書筆記 《推薦系統實踐》第三章

推薦系統需要根據使用者的歷史行為和興趣 使用者未來的行為和興趣,因此大量的使用者行為資料就成為推薦系統的重要組成部分和先決條件。在開始階段就希望有個性化推薦應用的 來說,如何在沒有大量使用者資料的情況下設計個性化推薦系統並且讓使用者對推薦結果滿意就是冷啟動的問題 冷啟動問題 coldstart 主要...

第三章 推薦系統冷啟動問題

推薦系統需要根據使用者的歷史行為和興趣 使用者未來的行為和興直,因此需要大量的使用者行為資料,對於已經積累了大量的使用者資料的公司來說,這或許根本不是問題,但對於沒有使用者資料的公司來說,如何做到個性化推薦並且讓使用者對推薦結果滿意呢?利用使用者的註冊資訊,可以較好的解決使用者冷啟動問題。獲取使用者...

第三章 儲存系統

儲存器的效能指標 儲存容量 訪問時間 儲存週期 頻寬等。儲存器的分類 按照儲存介質分類 半導體器件 磁性材料 光學方式 按照讀寫功能分類 唯讀而不能寫入的半導體儲存器 唯讀儲存器rom 既能讀出又能寫入的半導體儲存器 隨機儲存器ram 這裡的隨機是對於位址來說的 按照可儲存性分類 非永久記憶儲存器 ...