推薦演算法（三）基於標籤的演算法 CTR預估

1、在工業界，資料量非常大，如果用pandas讀入，雖然方便後續資料操作，但占用記憶體過多。工業界一般儲存稀疏資料用libsvm。

2、在進行建模前，先進行探索，刪除髒資料，分析下各個特徵的初步效果；對不均衡的樣本，下取樣，然後有多個分類器，通過bagging合併。

3、在排序ranking場景下，評估指標經常是auc

4 時間預處理：對映為不同的時間段

5、如果某一列的類別太多，（1）先做聚類；（2）離散化

6、每個值出現的頻次比較重要，對於頻次較低，觀察低頻數值，（1）離群點，（2）作為rule ，（3）把低頻的合在一起作為一列

7、大規模資料借助spark，mllib and pipeline,利用pyspark

8、模型融合，每個模型**的結果作為輸入，訓練乙個線性的model，得到每個的權重

9、svd feature

10、特徵組合後，（1）非常稀疏，（2）

解決方案：fm，ffm

轉推薦演算法基於矩陣分解的推薦演算法

其中，u1 u5 表示的是5 個不同的使用者，d1 d4 表示的是4 個不同的商品，這樣便構成了使用者商品矩陣，在該矩陣中，有使用者對每一件商品的打分，其中表示的是使用者未對該商品進行打分。在推薦系統中有一類問題是對未打分的商品進行評分的目前推薦系統中用的最多的就是矩陣分解方法，在netfli...

基於鄰域的推薦演算法

使用者相似度 w uv n u n v n u n v w frac wuv n u n v n u n v w uv n u n v n u n v w frac wuv n u n v n u n v 建立物品使用者倒排表，轉化為使用者相似度矩陣 def usersimilarity trai...

推薦演算法（三）基於標籤的演算法 CTR預估

轉推薦演算法 基於矩陣分解的推薦演算法

基於鄰域的推薦演算法

推薦系統基礎演算法之基於內容的推薦演算法

相關推薦

轉推薦演算法基於矩陣分解的推薦演算法