爬蟲基本概念

網路爬蟲又稱為網路蜘蛛,網路機械人,是一種按照一定的規則,自動請求全球資訊網**並提取網路資料的程式或指令碼

通常可以按照不同的維度對網路爬蟲進行分類;按照使用場景,可將爬蟲分為通用爬蟲和聚焦爬蟲;按照爬取形式,可分為累積式爬蟲和增量式爬蟲;按照爬取資料的存在方式,可分為表層爬蟲和深層爬蟲

通用爬蟲

通用爬蟲又稱為全網爬蟲,它將爬取物件從一些種子url擴充到整個網路,主要用途是為門戶站點搜尋引擎和大型web服務提供商採集資料

通用爬蟲的爬行範圍和數量巨大,對於爬行速度和儲存空間要求較高,對於爬行頁面的順序要求相對較低.同時由於待重新整理的頁面太多,通常採用並行工作方式,但需要較長時間才能重新整理一次頁面

聚焦爬蟲

聚焦爬蟲又稱為主題網路爬蟲,是指選擇性爬行那些與預先定義好的主題相關的頁面的網路爬蟲

累積式爬蟲

累積式爬蟲是指從某乙個時間點開始,通過遍歷的方式爬取系統所允許儲存和處理的所有網頁

增量式爬蟲

增量式爬蟲是指在具有一定量規模的網路頁面集合的基礎上,採用更新資料的方式選取已有集合中的過時網頁進行爬取,以保證所爬取到的資料與真實網路資料足夠接近.進行增量式爬取的前提是：系統已經爬取了足夠數量的網路頁面,並具有這些頁面被爬取的時間資訊

累積式爬取一般用於資料集合的整體建立或大規模更新階段;而增量式爬取則主要針對資料集合的日常維護與即使更新

表層爬蟲

爬取表層網頁的爬蟲叫作表層爬蟲.表層網頁是指傳統搜尋引擎可以索引的頁面,以超連結可以到達的靜態網頁為主構成的web頁面

深層爬蟲

深層爬蟲過程中最重要的部分就是表單填寫,包含兩種型別：

基於網頁結構分析的表單填寫：此方法一般無領域知識或僅有有限的領域知識,將網頁表單表示成dom樹,從中提取表單各字段的值