搜尋引擎反作弊之 整體技術思路

2022-08-13 19:45:12 字數 1880 閱讀 9188

如上所述,目前搜尋引擎作弊手段五花八門,層出不窮,作為應對方的搜尋引擎,也相應調整技術思路,不斷有針對性地提出反作弊的技術方案,所以如果整理反作弊技術方案,會發現技術方法很多,理清思路不易。

儘管如此,如果對大多數反作弊技術深入分析,會發現在整體技術思路上還是有規律可循。從基本的思路角度,可以將反作弊手段大致劃分為以下三種:「信任傳播模型」、「不信任傳播模型」和「異常發現模型」。其中前兩種技術模型可以進一步抽象歸納為「鏈結分析」一章提到的「子集傳播模型」,為了簡化說明,此處不再敷述,而是直接將這兩個子模型列出。將具體演算法和這幾個模型建立起關係,有助於對反作弊演算法的巨集觀思路和相互聯絡樹立起清晰的概念。

8.5.1信任傳播模型

圖8-6展示了「信任傳播模型」的示意圖。所謂「信任傳播模型」,基本思路如下:在海量的網頁資料中,通過一定技術手段或者人工半人工手段,從中篩選出部分完全值得信任的頁面,也即肯定不會作弊的頁面(可以理解為白名單),演算法以這些白名單內的頁面作為出發點,賦予白名單內的頁面節點較高的信任度分值,其它頁面是否作弊,要根據其和白名單內節點的鏈結關係來確定。白名單內節點通過鏈結關係將信任度分值向外擴散傳播,如果某個節點最後得到的信任度分值高於一定閾值,則認為沒有問題,而低於這一閾值的網頁則會被認為是作弊網頁。

圖8-6 信任傳播模型

很多演算法在整體流程和演算法框架上遵循如上描述,其區別點往往體現在以下兩方面:

a.如何獲得最初的信任頁面子集合,不同的方法手段可能有差異。

b.信任度是如何進行傳播的,不同的方法可能有細微差異。

8.5.2不信任傳播模型

圖8-7 不信任傳播模型

圖8-7展示了「不信任傳播模型」的整體框架示意圖。從大的技術框架上來講,其和「信任傳播模型」是相似的,最大的區別在於:初始的頁面子集合不是值得信任的頁面節點,而是確認存在作弊行為的頁面集合,即不值得信任的頁面集合(可以理解為黑名單)。賦予黑名單內頁面節點不信任分值,通過鏈結關係將這種不信任關係傳播出去,如果最後頁面節點的不信任分值大於設定的閾值,則會被認為是作弊網頁。

同樣,很多演算法可以歸入這一模型框架,只是在具體實施細節方面有差異,整體思路基本一致。

8.5.3異常發現模型

異常發現模型也是高度抽象化的乙個演算法框架模型,其基本假設認為:作弊網頁必然存在有異於正常網頁的特徵,這種特徵有可能是內容方面的 ,也有可能是鏈結關係方面的。而制定具體演算法的流程往往是先找到一些作弊的網頁集合,分析出其異常特徵有哪些,然後利用這些異常特徵來識別作弊網頁。

具體來說,這個框架模型又可細分為兩種子模型,這兩種子模型在如何判斷異常方面有不同的考慮角度。一種考慮角度比較直觀,即直接從作弊網頁包含的獨特特徵來構建演算法(參見圖8-8);另外一種角度則認為不正常的網頁即為作弊網頁,也就是說,是通過統計等手段分析正常的網頁應該具備哪些特徵,如果網頁不具備這些正常網頁的特徵,則被認為是作弊網頁(參見圖8-9)。圖8-8和圖8-9體現了這兩種不同的思路。

圖8-8 異常發現模型一

圖8-9 異常發現模型二

儘管反作弊演算法五花八門,但是不論採取哪種具體演算法,其實都包含了一些基本假設,經常被反作弊演算法使用的基本假設有:

b.      作弊網頁之間傾向於互相指向;

很多演算法的基本思路都是從這些基本假設出發來構造的。

搜尋引擎反作弊之 鏈結作弊與隱藏作弊

本文節選自 這就是搜尋引擎 核心技術詳解 第八章 8.2 鏈結作弊 所謂 鏈結作弊 是 擁有者考慮到搜尋引擎排名中利用了 鏈結分析 技術,所以通過操縱頁面之間的鏈結關係,或者操縱頁面之間的鏈結錨文字,以此來增加鏈結排序因子的得分,並影響搜尋結果排名的作弊方法。常見的鏈結作弊方法眾多,此節簡述幾種比較...

搜尋引擎反作弊與冪律分布

由於搜尋引擎普遍基於pagerank在做,有一種很常見的手法就是給乙個網頁設定足夠多的入鏈和出鏈,以提高網頁的搜尋權重。搜尋引擎針對這種作弊方式,會用到 冪律分布 來識別。即,網頁的出鏈和入鏈是否滿足以下規律 少量鏈結擁有大量流量,大量鏈結擁有少量流量。也可以更通俗的說,是否符合二八定理。如果乙個網...

搜尋引擎技術之整體架構設計

我們先看一下乙個搜尋引擎的大體設計圖 這裡面我們看到了輸入部分 索引部分 儲存部分 還有搜尋部分 簡單的說擁有這些部件你的產品就可以叫做乙個索引引擎了 ms 使用的桌面搜尋服務 index service 也是這幾部分組成的 那麼我們接下來一步一步分析這幾部分 1.source 作為輸入部分 為乙個...