推薦系統 CTR預估

問題描述

網際網路廣告有多種形式，包括展示廣告、競價排名、上下文廣告。對於按點選付費的廣告，乙個很重要的指標就是廣告點選率（使用者點選的次數 click / 展示的次數 impression）。本文主要討論的是上下文廣告的點選率預估問題。即，給定乙個網頁 page 和乙個廣告 ad（page/ad pair），我們來預估其點選率。

主要挑戰

對於低頻事件的 ctr 預估的結果存在很大的方差。主要包括兩種情況

處理問題的前提條件

我們認為這些罕見事件之間並非相互獨立，相反，事件之間存在一定的相關性來對預估的結果進行調節。

資料分層。

對於出版商來說，頁面可能是分層的，比如頁面1、頁面2、頁面3 均屬於科技板塊下，頁面之間存在共同的主題。對於廣告主來說，廣告也可能是分層的。比如乙個廣告主有乙個賬戶，乙個賬戶下有多個推廣計畫，乙個推廣計畫下存在多個廣告。

資料連續性

大多數事件的資料是隨時間收集的，而廣告活動是在一段時間內進行的。時間久遠的資料對**的價值可能不如近期的資料。

解決方法

對於：（頁面/廣告）對，已知對應的展示 \(i\) 和點選 \(c\)

存在乙個賬戶下的 \(n\) 個廣告 \((a_1, a_2, ..., a_n)\) 和乙個頁面 \(p\)，預估 \((p, a_i)\)， for \(i = 1, 2, ..., n\)。已知 \((i_1, i_2, ..., i_n)\) 和 \((c_1, c_2, ..., c_n)\)。假設該賬戶下的所有廣告在該頁面下的隱含的點選率 \(r_i\) 均服從同一先驗分布 \(beta(\alpha, \beta)\)。對於每乙個廣告的點選次數，均服從二項分布 \(binomial(i_i,r_i)\)。我們使用 mle 來估計引數 \(\alpha\) 和 \(\beta\)。

\[p(c_1, c_2, ..., c_n | i_1, i_2, ..., i_n, \alpha, \beta) = \prod_^ p(c_i | i_i, \alpha, \beta) = \prod_^ \int_ p(c_i | i_i, r_i) p(r_i | \alpha, \beta) d r_i

\]使用不動點迭代計算 \(\hat\) 和 \(\hat\)。最後，每個 \((p, a_i)\) 的後驗估計為

\[\hat = (c_i + \hat) / (i_i + \hat + \hat)

\]對於 \((a, p)\)，已知連續 \(m\) 天的展示次數 \((i_1, i_2, ..., i_m)\) 和點選次數 \((c_1, c_2, ..., c_m)\)，我們評估第 \(m\) 天的點選率。

\[\hat_1 = c_1, \hat = \gamma c_i + (1 - \gamma) \hat_

\]\(i_i\) 同理。超引數 \(0 < \gamma < 1\)。

\[\hat = \hat_m / \hat_m

\]組合

在事件資料的指數平滑（時序）之後，利用資料層次來進一步減輕稀疏性問題。

推薦系統 CTR預估

推薦系統CTR預估模型之Deep Cross

推薦系統CTR預估模型之DeepFM

推薦系統CTR預估模型之xDeepFM

推薦系統 CTR預估

推薦系統CTR預估模型之Deep Cross

推薦系統CTR預估模型之DeepFM

推薦系統CTR預估模型之xDeepFM

相關推薦