搜尋引擎反作弊之整體技術思路

如上所述，目前搜尋引擎作弊手段五花八門，層出不窮，作為應對方的搜尋引擎，也相應調整技術思路，不斷有針對性地提出反作弊的技術方案，所以如果整理反作弊技術方案，會發現技術方法很多，理清思路不易。

儘管如此，如果對大多數反作弊技術深入分析，會發現在整體技術思路上還是有規律可循。從基本的思路角度，可以將反作弊手段大致劃分為以下三種：「信任傳播模型」、「不信任傳播模型」和「異常發現模型」。其中前兩種技術模型可以進一步抽象歸納為「鏈結分析」一章提到的「子集傳播模型」，為了簡化說明，此處不再敷述，而是直接將這兩個子模型列出。將具體演算法和這幾個模型建立起關係，有助於對反作弊演算法的巨集觀思路和相互聯絡樹立起清晰的概念。

8.5.1信任傳播模型

圖8-6展示了「信任傳播模型」的示意圖。所謂「信任傳播模型」，基本思路如下：在海量的網頁資料中，通過一定技術手段或者人工半人工手段，從中篩選出部分完全值得信任的頁面，也即肯定不會作弊的頁面（可以理解為白名單），演算法以這些白名單內的頁面作為出發點，賦予白名單內的頁面節點較高的信任度分值，其它頁面是否作弊，要根據其和白名單內節點的鏈結關係來確定。白名單內節點通過鏈結關係將信任度分值向外擴散傳播，如果某個節點最後得到的信任度分值高於一定閾值，則認為沒有問題，而低於這一閾值的網頁則會被認為是作弊網頁。

圖8-6 信任傳播模型

很多演算法在整體流程和演算法框架上遵循如上描述，其區別點往往體現在以下兩方面：

a.如何獲得最初的信任頁面子集合，不同的方法手段可能有差異。

b.信任度是如何進行傳播的，不同的方法可能有細微差異。

8.5.2不信任傳播模型

圖8-7 不信任傳播模型

圖8-7展示了「不信任傳播模型」的整體框架示意圖。從大的技術框架上來講，其和「信任傳播模型」是相似的，最大的區別在於：初始的頁面子集合不是值得信任的頁面節點，而是確認存在作弊行為的頁面集合，即不值得信任的頁面集合（可以理解為黑名單）。賦予黑名單內頁面節點不信任分值，通過鏈結關係將這種不信任關係傳播出去，如果最後頁面節點的不信任分值大於設定的閾值，則會被認為是作弊網頁。

同樣，很多演算法可以歸入這一模型框架，只是在具體實施細節方面有差異，整體思路基本一致。

8.5.3異常發現模型

異常發現模型也是高度抽象化的乙個演算法框架模型，其基本假設認為：作弊網頁必然存在有異於正常網頁的特徵，這種特徵有可能是內容方面的，也有可能是鏈結關係方面的。而制定具體演算法的流程往往是先找到一些作弊的網頁集合，分析出其異常特徵有哪些，然後利用這些異常特徵來識別作弊網頁。

具體來說，這個框架模型又可細分為兩種子模型，這兩種子模型在如何判斷異常方面有不同的考慮角度。一種考慮角度比較直觀，即直接從作弊網頁包含的獨特特徵來構建演算法（參見圖8-8）；另外一種角度則認為不正常的網頁即為作弊網頁，也就是說，是通過統計等手段分析正常的網頁應該具備哪些特徵，如果網頁不具備這些正常網頁的特徵，則被認為是作弊網頁（參見圖8-9）。圖8-8和圖8-9體現了這兩種不同的思路。

圖8-8 異常發現模型一

圖8-9 異常發現模型二

儘管反作弊演算法五花八門，但是不論採取哪種具體演算法，其實都包含了一些基本假設，經常被反作弊演算法使用的基本假設有：

b. 作弊網頁之間傾向於互相指向；

很多演算法的基本思路都是從這些基本假設出發來構造的。

搜尋引擎反作弊之整體技術思路

搜尋引擎反作弊之鏈結作弊與隱藏作弊

搜尋引擎反作弊與冪律分布

搜尋引擎技術之整體架構設計

搜尋引擎反作弊之 整體技術思路

搜尋引擎反作弊之 鏈結作弊與隱藏作弊

搜尋引擎反作弊與冪律分布

搜尋引擎技術之整體架構設計

相關推薦

搜尋引擎反作弊之整體技術思路

搜尋引擎反作弊之鏈結作弊與隱藏作弊