搜尋引擎 網路爬蟲抓取策略

2021-07-07 04:34:52 字數 831 閱讀 4356

爬蟲的不同抓取策略,就是利用不同的方法確定待抓取url佇列中url優先順序的。

爬蟲的抓取策略有很多種,但不論方法如何,基本目標一致:優先選擇重要網頁進行抓取。

網頁的重要性,評判標準不同,大部分採用網頁的流行性進行定義。

效果較好或有代表性的抓取策略:

1、寬度優先遍歷策略

2、非完全pagerank策略

3、ocip策略

4、大站優先策略

實驗表明,這種策略效果很好,雖然看似機械,但實際上的網頁抓取順序基本上是按照網頁的重要性排序。之所以如此,有研究人員認為:如果某個網頁包含很多入鏈,那麼更有可能被寬度優先遍歷策略早早抓到,入鏈個數從側面體現了網頁的重要性,即實際上寬度優先遍歷策略隱含了一些網頁優先順序假設。

如果每次新抓取到乙個網頁,就進行重新計算新的非完全pagerank,明顯效率太低。折中辦法是網頁攢夠k個計算一次。

與pagerank的區別在於:pagerank每次需要迭代計算,而opic策略不需要迭代過程。所以計算速度遠遠快與pagerank,適合實時計算使用。同時,pagerank在計算時,存在向無鏈結關係網頁的遠端跳轉過程,而opic沒有這一計算因子。實驗結果表明,opic是較好的重要性衡量策略,效果略優於寬度優化遍歷策略。

參考:《這就是搜尋引擎-核心技術詳解》

搜尋引擎 網路爬蟲

原文出自 瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選...

搜尋引擎 網路爬蟲

5 多執行緒 主要目的減少cpu資源的浪費 通過網路爬蟲獲取網域名稱,得到網域名稱之後,查詢,對比,存到資料庫中,更新 拿新資訊,將一些訪問量大的資訊存入快取中 6 一般伺服器為30 40個執行緒 7 seo 搜尋排名優化技術 8 執行緒池 代替我們管理執行緒,相當於乙個執行緒框架,執行緒池中有乙個...

搜尋引擎 網路爬蟲

瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選接。各個程...