搜尋引擎之網路爬蟲

2021-07-09 10:19:50 字數 520 閱讀 1232

1、網路爬蟲結構

網路爬蟲把網路分為5個部分:

(5不可知網頁集合:即爬蟲無法獲取的網頁,而且這部分網頁佔較大比例

2、爬蟲分類

(1批量型

有明確抓取範圍和目標,達到目標停止抓取,目標可以使網頁輸也可以是時間量。

(2增量型

會保持不斷的抓取2、爬蟲分類

(1批量型

有明確抓取範圍和目標,達到目標停止抓取,目標可以使網頁輸也可以是時間量。

(2增量型

會保持不斷的抓取,並且對已抓取到網頁定期更新

(3垂直型爬蟲

抓取特定主題或特定行業內容額網頁

3、爬蟲的特性

(1高效能、良好的演算法與資料結構使爬蟲能夠高效的獲取大量url

(2可擴充套件性、根據需求能對抓取任務和爬蟲數量動態變換

(3健壯性、爬蟲要有處理異常情況的能力

(4友好性、保護**的部分私密性,減少被抓取**的網路負載

0

給主人留下些什麼吧!~~

搜尋引擎 網路爬蟲

原文出自 瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選...

搜尋引擎 網路爬蟲

5 多執行緒 主要目的減少cpu資源的浪費 通過網路爬蟲獲取網域名稱,得到網域名稱之後,查詢,對比,存到資料庫中,更新 拿新資訊,將一些訪問量大的資訊存入快取中 6 一般伺服器為30 40個執行緒 7 seo 搜尋排名優化技術 8 執行緒池 代替我們管理執行緒,相當於乙個執行緒框架,執行緒池中有乙個...

搜尋引擎 網路爬蟲

瀏覽器和網路爬蟲是兩種不同的網路客戶端,都以相同的方式來獲取網頁 1 首先,客戶端程式連線到網域名稱系統 dns 伺服器上,dns伺服器將主機 名轉換成ip 位址。2 接下來,客戶端試著連線具有該ip位址的伺服器。伺服器上可能有多個 不同程序程式在執行,每個程序程式都在監聽網路以發現新的選接。各個程...