搜尋引擎如何監控網頁變化?

2021-05-28 01:02:05 字數 501 閱讀 4769

但是仍有一些途徑可以優化和改進:

(2) 從效率上考慮,我們不能對所有網頁一視同仁,而應該重點檢查;測試發現,大部分**的網頁變化應該有一定規律的,比如首頁和論壇列表頁等容易發生變化,但老新聞內容頁可能幾年都不會發生變化;只要把經常變的給揪出來,變化內容就順便發現了,那麼怎麼跟蹤這些變化呢?可以記錄每個url的階段性變化歷史(如訪問了幾次,變化了幾次),然後下次抓取時,對其進行**,優先順序排序,經常變化的經常訪問。

補充說明:

(1) if-modified-since / e-tag 不是所有的web伺服器都支援,但一旦支援效果就非常好;

(2) 網頁變化**演算法需要保證幾點:

a) 排程上,既要滿足經常變的經常抓,還要保證不經常變的有機會抓;

c) 歷史**資訊需要根據時間進行調整,好應對各種場景,比如時段性頻繁變化網頁(過年時回家主題頁面,奧運時奧運板塊頁面等)

上述網頁**借鑑了北大天網搜尋引擎的網頁變化**理論;

實時搜尋原理暫不清楚,請了解的補充思路。

搜尋引擎如何去抓取網頁

搜尋引擎看似簡單的抓取 入庫 查詢工作,但其中各個環節暗含的演算法卻十分複雜。搜尋引擎抓取頁面工作靠蜘蛛 spider 來完成,抓取動作很容易實現,但是抓取哪些頁面,優先抓取哪些頁面卻需要演算法來決定,下面介紹幾個抓取演算法 1 寬度優先抓取策略 我們都知道,大部分 都是按照樹狀圖來完成頁面分布的,...

SEOER應該如何面對搜尋引擎的變化

每週三凌晨,基本可以確定是大更新的日子。一般我不會象其他站長或者seoer一樣等待更新後才睡覺,昨天依舊如此。今天起床比較早,上班之前開啟電腦檢視新站的更新情況以及老站的排名是否有變動,今天是我從事 優化工作感受最深的一天,大部分客戶 的排名不知蹤影,可以說慘不忍睹。然後我到點石看到抱怨和發感慨的人...

近期搜尋引擎規則變化總結

近期由於各種內外部原因,搜尋引擎規則發生了一些變化,這裡主要是說,所有的重心也都圍繞著,所以每當有變化我們的業務總是受到很大的 因此把近期對的觀察整理一下發出來,供大家參考。網域名稱歷史的重要性,這個是最最重要的,有些元程式設計客棧過3年以上的網域名稱,收錄很快,快照更新也很快最主要的就是你的更新量...