PageRank演算法初探

pagerank演算法由segey brin和larry page在2023年發表在www7。該演算法的高效能和易使用等特點，和其他的搜尋系統相比質量更高。因此，谷

歌成為世界上最常用的搜尋引擎有很大一部分是基於此。

他們借鑑了當時學術界評判**重要性的通用方法，根據**的引用次數。將這種思路對映到網頁的排名，如果乙個網頁有很多的網頁指向他，那麼這個網頁就更重要（具有更大的pagerank值）。

把網頁看做是乙個有向圖g =（e， v），其中v是頂點或節點的集合，即所有頁面的集合，e是有向圖的邊，即網頁中的超連結。web中所有的頁面數是n（即n=|v|），某個頁面page(i)的pagerank值定義為

如果某個網路的連通情況如下

可以想象乙個人在節點a時，開啟b和c節點的概率是一樣的都是1/2，因此下面方程組

pr(a) = pr(c)/2
pr(b) = pr(a)/3 + pr(d)/2
pr(c) = pr(a)/3 +　pr(d)/2
pr(d) = pr(a)/3 + pr(b) + pr(c)/2

則該方程組的過渡矩陣（transition matrix）為m

然後初始時，由於每個網頁被訪問的概率是一樣的，都是1/n,其中n為網頁中的頁面數。另外，一般情況下，所有網頁的pr值之和是1，這樣可以很好的反應每個頁面最終被訪問的概率。因此頁面的rank向量為v

第一次pr = m * v，之後迭代計算 pr = m * pr,直至收斂，這個例子中收斂的結果是

然而，我們再考慮另一種情況，網際網路中乙個頁面對自己有出鏈，或者是幾個頁面形成乙個迴圈圈，在不斷的迭代過程中，這乙個或幾個頁面的pr值只增不減，顯然是不合理的。為了解決這個問題，我們可以想象乙個隨機瀏覽網頁的人是不可能一直被迴圈的網頁困住。假設他以一定的概率d跳轉到每乙個網頁，於是上面的例子中

pr(a) = d*( pr(c)/2 ) +(1-d)/4

因此，一般情況下，乙個網頁的pr值計算如下：

其中d稱為阻尼係數（damping factor），被設定在（0 - 1）之間，d = 0.85是常用的。l(u)是網頁u的出鏈數目，n表示節點的總數。按照上面公式，就可以計算每個頁面的pr值，當不斷迭代趨於平穩的時候就是最終結果。