機器學習手記 7 2 PageRank演算法再思考

[toc]

一、目的

之前看過一些pagerank的知識和原始碼，自己也動手了一遍。今天看那本mining of massive dataset講pagerank章節的時候，對pagerank又有了更多的理解，現在闡釋如下。 pagerank演算法研究網路之間的相互引用的問題，我認為可以看成一種「名聲資源」的流動的過程。流動的這個過程其實就是馬爾科夫過程，而我們要求的pagerank值就是達到平衡狀態時的值。

二、馬爾科夫過程平衡兩個條件

強連通。就是各個節點能夠相互訪問

沒有終止點。

三、pagerank兩個問題

這兩個條件的不滿足其實就造成了pagerank演算法需要面對的兩個問題。

3.1 deadend終止點這種界定這個必然不滿足第二個條件，終止點的解決方法有兩種 a) 心靈漂移 b) 將這種點去除，先將連通的整個網路的pagerank值計算出來後，再管他們

3.2 spidertrap不能滿足各個節點相互訪問的條件這個情況有一組網頁相互連線，不跟其他人打交道。這組連線跟整個網路唯一的聯絡就是有一些網頁引用他們，也就是說有外部網頁給他們資源，但是他們從來不輸出資源。無法滿足條件1

四、從矩陣上分析兩個問題

pagerank的矩陣運算如下

4.1 deadend問題分析

乙個deadend的節點的分配是這樣的。下圖中，第三個點是deadend點。

豎著第三列是deadend的資源輸出分配，你可以看到他從來不分配給其他值。橫著第三列是輸入給deadend資源的配置，你可以看到每次都有各種pagerank值輸血給deadend節點，但是deadend節點在輸出方面卻是一毛不拔的。如果這樣持續到後面，就會看到整個網路都把資源給了deadend，而deadend怎麼做呢？從矩陣運算上，也就是左乘矩陣中一行一行向量和右邊的pagerank向量相乘的時候，每行的第三個元素都和v3值相乘，但是我們知道每行第三個元素都是0啊，這樣每行和pagerank列向量相乘的時候，v3的pagerank都不貢獻作用，甚至連v3自己的pagerank值他都起不上作用，那麼我們分配給deadend節點的pagerank值**去了？

完全被蒸發浪費掉了！

4.2 spidertrap問題分析-

而乙個spidertrap的點在矩陣中是如何做的呢？spidertrap只是一味的接收別人的資源，它不像deadend那樣乙個節點都不給，他也給，也有輸出行為，但是令人髮指的是，他的輸出行為是他自己，他的錢財從左荷包出來，又從右荷包進去了。 - 為了簡化思路，我們這裡以乙個單節點的spidertrap，也就是下面的d為例。如果有乙個組spidertrap節點，達到的也是這個效果。

觀察豎著第三列，這是spidertrap節點的資源輸出分配，從感官上看，你看到他是有分配的，但是細看你發現他給的是自己，他把100%的東西都給自己了！這意味著什麼？這意味著，每次pagerank迭代，這個傢伙都會分毫不差的拿到自己原來的pagerank值，然後還要加上其他節點給他自己的值。

next v3=(1/3)v1+(1/2)v2+100%*v3

這傢伙自己對自己貢獻的是1v3，加上其他的值就是穩賺不賠的買賣了。而如果這個點是deadend的話，他的值其實是自己是沒有貢獻的，0v3, 這是損人不利己的做法。因此，到後來其實我們可以看到，隨著迭代繼續，整個網路的資源總值不會減少，但是分布上會有很大變化，到後面幾乎所有的值都要跑到spidertrap上來了。那樣，

對比了下deadend和spidertrap，其實我們發現，兩者其實描述上不太一樣，但是在矩陣資源分配上，我們可以看到他們的區別其實就是乙個誰也不分配，乙個就管分配自己。乙個讓整個網路的總值發生了損失，而另乙個則讓整個網路的分布發生了變化。（其實deadend也讓分布發生了變化的，deadend其實就是整個網路失血點所在，到了失血點的血液資源，全都被廢掉了！）

五、pagerank兩種方法通用解決措施

那麼補救措施是什麼？心靈漂移teleporting。什麼意思，就是在一般情況下85%的情況下，我都是按照網路情況走的，但是在15%的情況下，我的資源流向不按照分布矩陣那樣配置資源了，而是天下大同，將各個節點的資源平均分給各個節點。這個法子對deadend和spidertrap都有效。為啥？「心靈漂移」倡導平均富裕，在這15%的時間，我就會對所有節點進行強制平均分配，「打到土豪分田地」。這樣即使deadend有獲取到東西就把東西砸壞的打算，即使spidertrap有獲取到的東西都是屬於我的的打算，我們都可以通過這15%的時間進行某種程度的挽救。但是這種挽救長久麼？能不能夠真正緩解pagerank網路本身的這兩種缺陷呢？我也不知道。在實際操作上來看，是可以的，雖然我不知道為啥？

六、pagerank一句話

其實說到這裡，我們可以把spidertrap和deadend理解成兩個壞孩子，我們如何懲罰這兩個壞孩子，才能夠讓好孩子們的資源網走的流暢，就是pagerank演算法給我解決的問題。

七、參考

[1] mining of massive dataset書籍

機器學習手記 7 2 PageRank演算法再思考

機器學習從入門到創業手記機器學習環境配置

機器學習手記 6 KNN演算法

機器學習從入門到創業手記基礎開發技術

機器學習手記 7 2 PageRank演算法再思考

機器學習從入門到創業手記 機器學習環境配置

機器學習手記 6 KNN演算法

機器學習從入門到創業手記 基礎開發技術

相關推薦

機器學習從入門到創業手記機器學習環境配置

機器學習從入門到創業手記基礎開發技術