競價廣告系統 廣告檢索

2022-07-03 12:06:12 字數 2344 閱讀 1275

在前面談到合約式廣告時沒有討論廣告檢索的問題,雖然合約式廣告也有檢索的問題,但合約式廣告一般數量非常小,只有千的級別,不需要特別的檢索技術。但在廣告網路中,比如google的廣告數在百萬級別。廣告的檢索問題有其獨特的地方,下面我們討論兩點。

1.     布林表示式檢索,2. 長query,它在上下文廣告時會用到。

index boolean expression**中的基本思想是某查詢滿足conjunction,也就滿足包含此conjunction的doc。索引維護兩層倒排關係,conjunction->docid和assignment->conjunctionid,conjunction->docid是普通的倒排索引,assigment->conjunctionid可會考慮sizeof(conjunction),如果sizeof(conjunction)大於sizeof(query),則無需考慮。

建立第一層index

遍歷文件dnf的conjunction,如果為新的,則分配乙個新id(從0遞增),否則用之前分配的conjunctionid;文件分配docid(從0遞增);寫入conjunction到doc的倒排關係,形成第一層index。

對於上步出現的新conjunction,建立第二層index

l  將conjunction切成assignment流,term為(屬性, 值),例: age ∈切成兩個term:  (age, 3),  (age, 4);state ?也切成兩個term: (state, ca),  (state, ny),?和∈體現在倒排鍊錶上

l  計算conjunction的size,將size體現在term中,最終的term的組成是(sizeof[conjunction], 屬性, 值)

l  對於size為0的conjunction,新增乙個特殊的term:z,∈

l  寫入倒排關係, term -> (conjunctionid,  ∈| ?)+

下面是描述成dnf形式的廣告集合。

doc1 = (age∈^state∈)∨(state∈^gender∈)=c1∨c4

doc2 = (age∈^state∈)∨(state?)=c2∨c6

doc3 = (age∈^gender∈^state?)∨(state∈^gender∈)=c3∨c7

doc4 = (age∈)∨(state∈^gender∈)=c5∨c4

doc5 = (state?)∨(age∈)=c6∨c5

doc7 = (age∈^state∈)∨(state∈^gender∈)=c1∨c7

doc6 = (state?)∨(age∈^state∈)∨(state∈^gender∈)= c6∨c1∨c4

第一層倒排(conjunction->docid)

c1 -> doc-1, doc-6, doc-7

c2 -> doc-2

c3 -> doc-3

c4 -> doc-1, doc-4, doc-7

c5 -> doc-4, doc-5

c6 -> doc-2, doc-5, doc-7

c7 -> doc-3, doc-6

比如c1這個conjuction在doc-1,doc-6,doc-7中都有,所以c1的posting list就是這樣的,這個倒排是為了得到廣告的目的,比較簡單。

第二層倒排(assignment->conjunction),它首先按size進行劃分,0表示size=0的conjunction組成的倒排表,它裡面只有不屬於的情況,1表示conjunction只有乙個屬於的情況。以此類推。

在檢索的時候,先檢視sizeof(query),即查詢中有幾個定向條件,僅當查詢的定向條件少於廣告的定向條件時,才會查詢廣告,否則不用查詢,這樣可以減少查詢的工作量。

傳統搜尋引擎中需需要將所有出現過以上term的文件都取出來,然後計算相關性並找到top-n,在長query和大文件集時查詢速度被巨大的計算量所限制,並且最終的效果也不會很好,top-n中n的取值如果太大會給後續計算產生很大的壓力,如果n太小可能會將一些優質的廣告丟棄了。

在個人使用wand演算法中感覺wand演算法很有效,並且很有啟發意義。前面提到過要定義文件和query的相似度函式,用這個函式來進行剪枝,剪枝的目的是使得在query很長的情況下,能夠用少的topn將優質的廣告覆蓋。我們用乙個比較簡單的函式:

公式中score就是相似度函式,d是文件,q是查詢,t是查詢和文件中都有的term,alpha是t的乙個權重,比如idf,w(t,d)是t和d的乙個權重。

wand演算法的關鍵是定義了term貢獻度的上界ub(upper bound):

ub是指乙個term t在所有的文件d中,貢獻的最大值ub(t)。

利用ub和ub,可以進行大量的剪枝。

競價廣告系統 位置拍賣理論

競價系統理論 競價系統中的拍賣可以描述成乙個位置拍賣 position auction 的問題,它主要描述的是搜尋廣告,搜尋廣告位會多個廣告位 將物件a 排放到位置s 物件即是廣告,位置就是廣告位。物件a的出價 bid 為ba,而其對位置s的計價為uas vaxs,x1 x2 xs 將va視為點選價...

怎麼寫廣告? 競價廣告的8條鐵律

廣告策劃在於創意,但也有一些規律可循,總結下來這8條為基礎規律!一 標題黨吃的開!好標題是廣告成功的一半。標題的作用有三個 1 attention,引起注意 2 傳達乙個完整的資訊 3 interest,引起消費者的興趣。二 用數字說話,精準數字比整數好!使用非常具體的數字 一更真實 可信 二 用數...

手把手教你設計廣告競價系統 2

一 需求分析要做成什麼樣,做到什麼樣 功能 效能 體驗 包裝 品牌 的廣告系統,作為乙個優秀的產品經理一定要很清楚。這是中軸線,將貫穿在以後的研發 運營 市場的始終。1 廣告系統的業務型別 2 廣告系統的業務擴充套件預留 做研發的產品經理司空見慣了需求的多 變,也為此帶來的工作量的增加或影響而苦惱。...