網頁爬蟲 WebCrawler 更新策略

顧明思議，歷史參考策略是指根據頁面以往的歷史更新資料，**該頁面未來何時會發生變化。。一般來說，是通過泊松過程進行建模來**的。

儘管搜尋引擎針對某個查詢條件能夠返回數量巨大的結果，但是使用者往往只關注前幾頁結果。因此，抓取系統可以優先更新那些在查詢結果中排名靠前的網頁，然後再更新排名靠後的網頁。這種更新策略也需要用到歷史資訊。使用者體驗策略保留網頁的多個歷史版本，並且根據過去每次的內容變化對搜尋質量的影響得出乙個平均值，將該值作為決定何時重新抓取的依據。

前面提到的兩種更新策略都有乙個前提：需要網頁的歷史資訊。這樣就會存在兩個問題：第一，系統如果為每個網頁儲存多個歷史版本資訊，則無疑增加了系統負擔；第二，如果新的網頁完全沒有歷史資訊，則無法確定更新策略。

聚類抽樣策略認為，網頁具有很多屬性，類似屬性的網頁可以認為其更新頻率也是類似的。要計算某個類別網頁的更新策略，只需對這類網頁抽樣，以他們的更新週期作為整個類別的更新週期。

網頁爬蟲 WebCrawler 更新策略

網頁爬蟲php,php網頁爬蟲

網頁爬蟲靜態網頁《一》

android ios 網頁爬蟲

網頁爬蟲 WebCrawler 更新策略

網頁爬蟲php,php網頁爬蟲

網頁爬蟲 靜態網頁《一》

android ios 網頁爬蟲

相關推薦

網頁爬蟲靜態網頁《一》