推薦系統實戰 2

2021-09-03 08:55:55 字數 1461 閱讀 2132

使用者行為在個性化推薦系統中一般分為兩種——顯性反饋行為和隱性反饋行為。

特徵顯性反饋資料

隱性反饋資料

使用者興趣

明確不明確

數量較少

龐大儲存

資料庫分布式檔案系統

實時讀取

實時有延遲

正負反饋

都有只有正反饋

按照反饋的明確性分,使用者行為資料可以分為顯性反饋和隱性反饋

按照反饋的方向分,又可以分為正反饋和負反饋。

正反饋指使用者的行為傾向於指使用者喜歡該物品,而負反饋指使用者的 行為傾向於指使用者不喜歡該物品。

在顯性反饋中,很容易區分乙個使用者行為是正反饋還是負反饋, 而在隱性反饋行為中,就相對比較難以確定

名詞解釋:

長尾分布:正態曲線中間的突起部分叫「頭」;兩邊相對平緩的部分叫「尾」。從人們需求的角度來看,大多數的需求會集中在頭部,而這部分我們可以稱之為流行,而分布在尾部的需求是個性化的,零散的小量的需求。而這部分差異化的、少量的需求會在需求曲線上面形成一條長長的「尾巴」,而所謂長尾效應就在於它的數量上,將所有非流行的市場累加起來就會形成乙個比流行市場還大的市場。

長尾效應的根本就是強調「個性化」,「客戶力量」和「小利潤大市場」,也就是要賺很少的錢,但是要賺很多人的錢。要將市場細分到很細很小的時候,然後就會發現這些細小市場的累計會帶來明顯的長尾的效應。

以圖書為例:barnes&noble的平均上架書目為13萬種。而amazon有超過一半的銷售量都來自於在它排行榜上位於13萬名開外的圖書。如果以amazon的統計資料為依據的話,這就意味著那些不在一般書店裡**的圖書要比那些擺在書店書架上的圖書形成的市場更大。也就是說,我們能夠擺脫資源稀缺的限制。

通過分析可以得出:不管是物品的流行度還是使用者的活躍度,都近似於長尾分布。

僅僅基於使用者行為資料設計的推薦演算法一般稱為協同過濾演算法:

如基於鄰域的方法(neighborhood-based)、隱語義模型 (latent factor model)、基於圖的隨機遊走演算法(random walk on graph)等。

基於鄰域的方法主要包含下面兩種演算法:

召回率描述有多少比例的使用者—物品評分記錄包含在最終的推薦列表中。

準確率描述最終的推薦列表中有多少比例是發生過的使用者—物品評分記錄。

覆蓋率反映了推薦演算法發掘長尾的能力,覆蓋率越高,說明推薦演算法越能夠將長尾中的物品推薦給使用者。

平均流行度度量推薦結果的新穎度。如果推薦出的物品都很熱門,說明推薦的新穎度較低,否則說明推薦結果比較新穎。

名詞解釋:

倒排索引源於實際應用中需要根據屬性的值來查詢記錄。這種索引表中的每一項都包括乙個屬性值和具有該屬性值的各記錄的位址。由於不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引(inverted index)。帶有倒排索引的檔案我們稱為倒排索引檔案,簡稱倒排檔案(inverted file)。

推薦系統實戰

其中,r u 表示對使用者推薦的n個物品,t u 表示使用者u在測試集上喜歡的物品集合。jaccard公式 其中,n u 表示使用者u有過正反饋的物品集合。余弦相似度公式 其中,s u,k 表示和使用者u興趣最接近的k個使用者集合 n i 表示對物品i有過正反饋的使用者集合 w u,v 表示使用者u...

推薦系統實戰

推薦系統實戰 recommender systems 將介紹推薦系統的基本原理和發展,並 一些常用的基本技術來構建具有不同可用資料來源的推薦系統及其實現。具體地說,將學習如何 使用者對乙個潛在專案的評價,如何生成乙個專案的推薦列表,以及如何從豐富的功能中 點選率。這些任務在實際應用程式中很常見。將獲...

推薦系統 實戰總結

這週看了推薦系統實戰這本書,其中基本上介紹的比較全面,但是每一部分並沒有十分深入,深入的精華全部都在下方的備註當中,備註中有很多的 可以進行進一步的學習。1 根據使用者的歷史行為,表達過反饋的item進行item的 傳統的itemcf 2 根據使用者的歷史行為,找到相似使用者,進行 usercf 3...