推薦系統提綱筆記

問題本質：矩陣的未知部分如何填充問題。已知的值是使用者已經互動過的 item，如何基於這些已知值填充矩陣剩下的未知值，也就是去**使用者沒有互動過的 item 是矩陣填充要解決的問題。缺點

mf 模型 ( 矩陣分解 )

fism（factored item similarity model）

svd++

缺點優點

實現gbdt

gbdt在本質上還是梯度下降法，每一步通過學習一棵擬合負梯度（也就是所謂「殘差」）的樹，來使損失函式逐漸減小

用於分類優點

缺點adaboost v.s. gbdt

gbdt v.s. lr

gbdt 與 xgboost 區別

傳統gbdt在優化時只用到一階導數資訊，xgboost則對代價函式進行了二階泰勒展開，同時用到了一階和二階導數。xgboost工具支援自定義代價函式，只要函式可一階和二階求導。

列抽樣（column subsampling）。xgboost借鑑了隨機森林的做法，支援列抽樣，不僅能降低過擬合，還能減少計算。

xgboost工具支援並行。boosting不是一種序列的結構嗎?怎麼並行的？注意xgboost的並行不是tree粒度的並行，xgboost也是一次迭代完才能進行下一次迭代的（第t次迭代的代價函式裡包含了前面t-1次迭代的**值）。xgboost的並行是在特徵粒度上的。我們知道，決策樹的學習最耗時的乙個步驟就是對特徵的值進行排序（因為要確定最佳分割點），xgboost在訓練之前，預先對資料進行了排序，然後儲存為block結構，後面的迭代中重複地使用這個結構，大大減小計算量。這個block結構也使得並行成為了可能，在進行節點的**時，需要計算每個特徵的增益，最終選增益最大的那個特徵去做**，那麼各個特徵的增益計算就可以開多執行緒進行。fm

實現優點

缺點和其他模型的關係

ffm優點缺點

超引數對於模型的影響

deep matrix factorization

autorec 模型

cdae模型（collaborative denoising auto-encoders）總結

duif 模型 ( deep user and image feature learning )

acf 模型 ( attentive collaborative filtering )

ckb 模型 ( collaborative knowledge base embedding )

缺點實現**

pnn：pnn同樣引入了dnn對低階特徵進行組合，但與fnn不同，pnn並沒有單純使用全連線層來對低階特徵進行組合，而是設計了product層對特徵進行更細緻的交叉運算。在不考慮啟用函式的前提下，使用全連線的方式對特徵進行組合，等價於將所有特徵進行加權求和。pnn的作者同樣意識到了這個問題，認為「加法」操作並不足以捕獲不同field特徵之間的相關性。缺點

**實現

wide&deep：fnn與pnn更多得捕捉高階交叉特徵，而忽略了低階特徵。wide & deep分為wide與deep兩部分，wide是記憶(memorization)，負責處理低階特徵，一般為人工梳理，且具有一定業務背景的單特徵，或者一些顯而易見的組合特徵。顯然，光有wide就是個lr模型，而deep的加入是模型具有很好的泛化效能。deep負責擴充套件(generalization)，通過embedding+dnn學習高階交叉特徵，獲得更好的泛化效能。缺點

**實現

deepfm:deepfm是基於wide&deep進行改進，wide&deep仍避免不了人工設計特徵，deepfm則將wide模組替換為fm，fm模型可以抽取低階特徵，dnn可以抽取高階特徵。

**實現

dcn:由兩部分構成，一部分還是基於dnn的deep network，另一部分是cross neteork。由此可見，dcn也是w&d的公升級版，將wide模組替換為cross network

**實現

xdeepfm：基於vector-wise的模式提出了新的顯式交叉高階特徵的方法。與vector-wise概念相對應的是bit-wise，在最開始的fm模型當中，通過特徵隱向量之間的點積來表徵特徵之間的交叉組合。特徵交叉參與運算的最小單位為向量，且同一隱向量內的元素並不會有交叉乘積，這種方式稱為vector-wise。優點

實現autoint:通過 multi-head self-attention 機制顯示構造高階特徵，有效提公升了ctr預估的準確率

推薦系統提綱筆記

推薦系統筆記

推薦系統筆記

推薦系統筆記（下）

推薦系統提綱筆記

推薦系統筆記

推薦系統 筆記

推薦系統 筆記（下）

相關推薦

推薦系統筆記

推薦系統筆記（下）