搜尋相關性

今天學習了同事總結的搜尋相關性計算方法，整理如下：

相關性指搜尋query和頁面之間的相關程度，衡量的維度有：文字相關性、權威性、查詢需求滿足。其中權威性要求同等條件下選擇更優質、權威的結果；需求滿足側重了搜尋個性化，同乙個搜尋詞有多種不同含義，搜尋引擎應該能夠分析出使用者的意圖和需求，然後返回適合的結果。

1）term出現的順序和相對位置

2)頁面級別的特徵：主題分析、反鏈anchor分析、頁面型別、頁面質量、站點/頻道的屬性、正文提取/邊框去噪等

3）term級別的特徵：結構特徵及語義（定義詞、上下文關係等）

1）將query中所有term的tf*idf加權相加，

2）向量夾角：query向量和頁面向量之間的相似度

主題匹配度*offset模型：

目標：好結果的召回（包含全部term的網頁，命中同義詞的網頁，主幹命中的網頁）、結果排序

計算：主題匹配度=cqr*ctr，其中cqr是query與片段的交集佔query的比例， ctr是query和片段的交集佔片段的比例。

offset：term在網頁中的分布情況，用於計算query中的term在網頁中的距離，體現了term的相對位置資訊，

•offset差異計算公式：

sum(|(offset_page(i+1)-ofset_page(i))

-(offset_query(i+1)-offset_query(i))|*tight_ratio(i))

計算文字相關性，term的重要性是不同的，要按照term的重要性做省略重查，query的主幹識別很重要。

除了文字相關性，相關性計算還涉及權威性、使用者需求分析、反作弊、使用者行為分析、資源質量判定、svm模型等（概率檢索模型？）……

------------------------------------------我是分割線——————————————————————————

目前的檢索過程有：leaf計算scorer、booster後，由searchroot的pre_tuner和post_tuner進行調權，放出結果。

scorer是加權和，booster是調權因子，tuner是searchroot對結果進行調整，如pre_tuner過濾掉死鏈、死host、重複的doc等，post_tuner是例如去掉相同摘要的doc等等。

scorer初始化=》search初始化=》doc初始化=》computerscorerinternal=》computersectionscorer。。。=》scorer

searchroot檢索流程：

query=》query_rewriter=》parent=>leaf=>searchroot pre_tuner=>parent=>leaf=>snippet=>post_tuner=>filter=>user....