爬蟲的基本原理及其架構

2021-09-29 15:53:50 字數 1253 閱讀 8422

總述

網路爬蟲的遍歷策略

架構通常,訪問乙個網頁,需要乙個初始url,然後通過這個頁面的超連結才能跳轉到其他頁面。同理,乙個爬蟲通過初始url列表(種子鏈結)訪問到初始網頁,並提取其中的url新增到工作佇列,判斷該工作佇列的url是否訪問過頁面;是,從工作佇列中移除並新增到以遍歷表;否,放進工作佇列,繼續訪問頁面,流程圖如下

以採取文章標題為例

public class newbio 

public void run()

}public linkedblockingqueueparselink(string url)

//解析列表頁

elements list_urls = doc.select("div.pager > a");

for (element element : list_urls)

} else if (url.substring(url.lastindexof(".")+1).equals("html")) else

} catch (ioexception e)

return worklist;

}public void parseurl(string url) else

} catch (ioexception e)

}public static void main(string args)

}

本例可採用多執行緒進行採集,這裡省去

網路爬蟲遍歷策略可分為三種:深度優先遍歷,廣度優先遍歷,最佳優先遍歷,其中廣度優先遍歷和最佳優先遍歷為最常用的爬蟲遍歷策略。由於網上已有很詳細的介紹,讀者可參考如下

深度優先遍歷:

廣度優先遍歷:可借鑑如下圖

本圖引用與《解密搜尋引擎實戰》

1.分布式爬蟲架構

本圖引用與《解密搜尋引擎實戰》

2.垂直爬蟲架構

本圖引用與《解密搜尋引擎實戰》

爬蟲基本原理

一 爬蟲是什麼?爬蟲要做的是什麼?使用者獲取網路資料的方式是 爬蟲程式要做的就是 區別在於 我們的爬蟲程式只提取網頁 中對我們有用的資料 為什麼要做爬蟲 爬蟲的價值 網際網路中最有價值的便是資料,比如天貓 的商品資訊,鏈家網的租房資訊,雪球網的 投資資訊等等,這些資料都代表了各個行業的真金 可以說,...

爬蟲基本原理

三種爬蟲方式 通用爬蟲 抓取系統重要組成部分,獲取的是整張頁面資料 聚焦爬蟲 建立在通用爬蟲之上,抓取頁面指定的區域性內容 增量式爬蟲 檢測 資料更新的情況,只抓取更新出來的資料 https協議 安全的超文字傳輸協議 證書秘鑰加密 請求頭 響應頭 加密方式 傳送請求 獲取響應內容 解析內容 儲存資料...

爬蟲基本原理

一 爬蟲介紹 本質,就是想 傳送http請求,拿回一些頁面 json格式資料 request 處理資料,解析出有用的東西 re,bs4 儲存 mysql,檔案,cvs,redis,mongodb,es 分析 cookie池和 池 正向 和反向 正向 自己,反向 伺服器 爬蟲運用模組 requests...