推薦演算法(三)基於標籤的演算法 CTR預估

2021-09-13 01:26:56 字數 479 閱讀 1614

1、在工業界,資料量非常大,如果用pandas讀入,雖然方便後續資料操作,但占用記憶體過多。工業界一般儲存稀疏資料用libsvm。

2、在進行建模前,先進行探索,刪除髒資料,分析下各個特徵的初步效果;對不均衡的樣本,下取樣,然後有多個分類器,通過bagging合併。

3、在排序ranking場景下,評估指標經常是auc

4 時間預處理:對映為不同的時間段

5、如果某一列的類別太多,(1)先做聚類;(2)離散化

6、每個值出現的頻次比較重要,對於頻次較低,觀察低頻數值,(1)離群點,(2)作為rule ,(3)把低頻的合在一起作為一列

7、大規模資料借助spark,mllib  and pipeline,利用pyspark

8、模型融合,每個模型**的結果作為輸入,訓練乙個線性的model,得到每個的權重

9、svd feature

10、特徵組合後,(1)非常稀疏,(2)

解決方案:fm,ffm

轉推薦演算法 基於矩陣分解的推薦演算法

其中,u1 u5 表示的是5 個不同的使用者,d1 d4 表示的是4 個不同的商品,這樣便構成了使用者 商品矩陣,在該矩陣中,有使用者對每一件商品的打分,其中 表示的是使用者未對該商品進行打分。在推薦系統中有一類問題是對未打分的商品進行評分的 目前推薦系統中用的最多的就是矩陣分解方法,在netfli...

基於鄰域的推薦演算法

使用者相似度 w uv n u n v n u n v w frac wuv n u n v n u n v w uv n u n v n u n v w frac wuv n u n v n u n v 建立物品 使用者倒排表,轉化為使用者相似度矩陣 def usersimilarity trai...

推薦系統基礎演算法之基於內容的推薦演算法

基於內容的推薦方法的優點是 基於內容的推薦方法的缺點是 1.特徵 內容 提取,提取每個待推薦物品的特徵 內容屬性 例如電影 書籍 商品的分類標籤等。這些特徵往往分為兩種 結構化的特徵和非結構化的特徵。所謂結構化特徵就是特徵的取值限定在某個區間範圍內,並且可以按照定長的格式來表示。例如,電影類別特徵,...