爬蟲基本概念

2022-03-31 07:13:09 字數 986 閱讀 6900

網路爬蟲又稱為網路蜘蛛,網路機械人,是一種按照一定的規則,自動請求全球資訊網**並提取網路資料的程式或指令碼

通常可以按照不同的維度對網路爬蟲進行分類;按照使用場景,可將爬蟲分為通用爬蟲聚焦爬蟲;按照爬取形式,可分為累積式爬蟲增量式爬蟲;按照爬取資料的存在方式,可分為表層爬蟲深層爬蟲

通用爬蟲

通用爬蟲又稱為全網爬蟲,它將爬取物件從一些種子url擴充到整個網路,主要用途是為門戶站點搜尋引擎和大型web服務提供商採集資料

通用爬蟲的爬行範圍和數量巨大,對於爬行速度和儲存空間要求較高,對於爬行頁面的順序要求相對較低.同時由於待重新整理的頁面太多,通常採用並行工作方式,但需要較長時間才能重新整理一次頁面

聚焦爬蟲

聚焦爬蟲又稱為主題網路爬蟲,是指選擇性爬行那些與預先定義好的主題相關的頁面的網路爬蟲

累積式爬蟲

累積式爬蟲是指從某乙個時間點開始,通過遍歷的方式爬取系統所允許儲存和處理的所有網頁

增量式爬蟲

增量式爬蟲是指在具有一定量規模的網路頁面集合的基礎上,採用更新資料的方式選取已有集合中的過時網頁進行爬取,以保證所爬取到的資料與真實網路資料足夠接近.進行增量式爬取的前提是:系統已經爬取了足夠數量的網路頁面,並具有這些頁面被爬取的時間資訊

累積式爬取一般用於資料集合的整體建立或大規模更新階段;而增量式爬取則主要針對資料集合的日常維護與即使更新

表層爬蟲

爬取表層網頁的爬蟲叫作表層爬蟲.表層網頁是指傳統搜尋引擎可以索引的頁面,以超連結可以到達的靜態網頁為主構成的web頁面

深層爬蟲

深層爬蟲過程中最重要的部分就是表單填寫,包含兩種型別:

基於網頁結構分析的表單填寫:此方法一般無領域知識或僅有有限的領域知識,將網頁表單表示成dom樹,從中提取表單各字段的值

1 爬蟲基本概念

目錄 一 什麼是網路爬蟲?二 爬蟲分類 三 如何編寫爬蟲 四 爬蟲必備技能 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。學會了爬蟲,我們可以做 python爬蟲程式可用於收集資料。這也是最直接和最...

爬蟲的基本概念(一)

1,http和https http 超文字傳輸協議,預設埠號 80 https http ssl 安全套接字層 預設埠號 443 2,http常見請求頭 1.host 主機和埠 2.connect 連線型別 3.upgrade insecure requests 公升級為https請求 4.user...

01 爬蟲的基本概念

爬蟲網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式.原則上,只要是瀏覽器能做的事情,爬蟲都能做.爬蟲能做什麼 爬蟲的分類 爬蟲獲取的資料的用途 進行資料分析或者是機器學習相關的專案 爬蟲的流程 通用搜尋引擎的侷限性 ...