你管這叫 PageRank 演算法

2022-09-08 23:24:15 字數 2062 閱讀 9956

一、如果乙個網頁被很多其他網頁鏈結到的話說明這個網頁比較重要,也就是pagerank值會相對較高。

二、如果乙個pagerank值很高的網頁鏈結到乙個其他的網頁,那麼被鏈結到的網頁的pagerank值會相應地因此而提高。

一、給每個網頁乙個初始pagerank值。

二、通過(投票)演算法不斷迭代,直至達到平穩分布為止。

pr值物理意義上為乙個網頁被訪問的概率,所以pr初始值可以假設為 1/n ,其中n為網頁總數。一般情況下,所有網頁的pr值的總和為1。(如果不為1的話也不是不行,最後算出來的不同網頁之間pr值的大小關係仍然是正確的,只是不能直接地反映概率)。

網頁pr值計算公式為:

假設乙個由只有4個頁面組成的集合:a,b,c和d。如果所有頁面都鏈向a,那麼a的pr值將是b,c及d的和。

假設b也有鏈結到c,並且d也有鏈結到包括a的3個頁面。乙個頁面不能投票2次。所以b給每個頁面半票。以同樣的邏輯,d投出的票只有三分之一算到了a的pr上。

換句話說,根據鏈出總數平分乙個頁面的pr值。

根據多次迭代後,pr值逐漸收斂穩定。

1、排名洩露:如果存在網頁沒有出度鏈結,經過多次迭代,所有網頁的pr值都會趨於0,產生排名洩露問題。

2、排名下沉:如果存在網頁沒有入度鏈結,經過多次迭代,該網頁的pr值將趨於0,產生排名下沉問題。

3、排名上公升:如果乙個網頁只有對自己的出鏈,或者幾個網頁的出鏈形成乙個迴圈圈。那麼在多次迭代過程後,這乙個或幾個網頁的pr值將只增不減。

為了解決這個問題,我們假設乙個隨機瀏覽網頁的人,當他到達c網頁後,假定他有乙個確定的概率(1–a)會輸入**直接跳轉到乙個隨機的網頁,並且跳轉到每個網頁的概率是一樣的。

於是此圖中c的pr值可表示為:

在一般情況下,乙個網頁的pr值計算如下:

其中mpi是所有對pi網頁有出鏈的網頁集合,l(pj)是網頁pj的出鏈數目,n是網頁總數,a一般取0.85。根據上面的公式,我們可以計算每個網頁的pr值,在不斷迭代趨於平穩的時候,即為最終結果。

1、人們的查詢具有主題特徵,pagerank忽略了主題相關性,導致結果的相關性和主題性降低。例如,當搜尋「蘋果」時,乙個數碼愛好者可能是想要看 iphone 的資訊,乙個果農可能是想看蘋果的**走勢和種植技巧,而乙個小朋友可能在找蘋果的簡筆畫。理想情況下,應該為每個使用者維護一套專用向量,但面對海量使用者這種方法顯然不可行。所以搜尋引擎一般會選擇一種稱為主題敏感pagerank(topic-sensitive pagerank)的折中方案。主題敏感pagerank的做法是預定義幾個話題類別,例如體育、娛樂、科技等等,為每個話題單獨維護乙個向量,然後想辦法關聯使用者的話題傾向,根據使用者的話題傾向排序結果。

2、沒有區分站內導航鏈結。很多**的首頁都有很多對站內其他頁面的鏈結,稱為站內導航鏈結。這些鏈結與不同**之間的鏈結相比,肯定是後者更能體現pagerank值的傳遞關係。

3、沒有過濾廣告鏈結和功能鏈結。這些鏈結通常沒有什麼實際價值,前者鏈結到廣告頁面,後者常常鏈結到某個社交**首頁。

4、對新網頁不友好。乙個新網頁的一般入鏈相對較少,即使它的內容的質量很高,要成為乙個高pr值的頁面仍需要很長時間的推廣。

針對pagerank演算法的缺點,提出了trustrank演算法,用來檢測垃圾**。

trustrank演算法工作原理:先人工去識別高質量的頁面(「種子」頁面),那麼由「種子」頁面指向的頁面也可能是高質量頁面,即其tr值也高,與「種子」頁面的鏈結越遠,頁面的tr值越低。「種子」頁面可選出鏈數較多的網頁,也可選pr值較高的**。

trustrank演算法給出每個網頁的tr值。將pr值與tr值結合起來,可以更準確地判斷網頁的重要性。

簡單列舉?你管這叫簡單???

這劉汝佳說的。已經好久沒碰數學的我感覺被針對了。ps 題目確實不難,但是都需要動動小腦袋去優化。輸入正整數n,按從小到大的順序輸出所有形如abcde fghij n的表示式,其中a j恰好為數字0 9的乙個排列 可以有前導0 2 n 79。樣例輸入 62樣例輸出 79546 01283 62 947...

PageRank演算法初探

pagerank演算法由segey brin和larry page在1998年發表在www7。該演算法的高效能和易使用等特點,和其他的搜尋系統相比質量更高。因此,谷 歌成為世界上最常用的搜尋引擎有很大一部分是基於此。他們借鑑了當時學術界評判 重要性的通用方法,根據 的引用次數。將這種思路對映到網頁的...

PageRank 演算法隨記

遞迴的意思是 假如現在要求c,指向c的入鏈只有b,那麼得先求b的重要度,b重要度的大小取決於指向b的入鏈以及這些入鏈的重要度。隨機 的解釋 從i這個頁面開始,它可能有di種選擇,而且他做每一種選擇的時候,選擇的概率是相同的,即他決定到下乙個頁面是乙個隨機的選擇 應該跳到那個頁面 我們把上面圖中的矩陣...