網路爬蟲學習筆記一網路爬蟲概述

網路爬蟲（又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

爬蟲的基本結構框架流程圖如下：

網路爬蟲的基本框架如下:

1 首先需要乙個已知的種子url庫 2 讀取已知的種子url集合到帶抓取集合中 3 抓取執行緒讀取帶抓取集合中的種子url,進行抓取解析 4 將解析到的結果儲存到指定的位置中 5 將抓取過的url插入到已抓取的佇列中

1 寬度優先遍歷策略

寬度優先遍歷策略是最簡單的遍歷方式,爬蟲通過抓取種子url,解析到需要的鏈結位址後,將這個鏈結位址直接新增到帶抓取的url佇列中

具體的抓取順序為: a -> b -> c -> d -> e -> f

2 深度優先遍歷策略

深度優先遍歷策略主要是通過抓取種子url後,對新抓到的鏈結位址立即進行抓取,知道抓取到最深度,也就是沒有在滿足要求的鏈結位址為止。具體的抓取順序如下：

a -> b -> d -> e -> c -> f

3 非完全pagerank頁面

pagerank演算法是google提出來的,主要是用於分析頁面的重要性上,頁面重要性的衡量主表為:

1 入鏈的個數 2 頁面質量

針對某個網際網路網頁a來說,該頁面的pagerank的計算基於以下兩個假設：

1 數量假設：如果乙個頁面節點接收到的其他頁面的執行的入鏈數越多,那麼這個頁面越重要 2 質量假設：指向頁面a的入鏈的質量不同,質量高的頁面通過連線其他頁面傳遞質量,越是質量高的頁面執行a,則a越重要

通過以上兩個假設,pagerank演算法剛開始賦予每個頁面相同的質量權重,通過迭代遞迴計算的方式,來更新每個頁面的pagerank的得分,知道得分穩定為止。

4 opic策略

5 大站優先策略

網路爬蟲學習筆記 一 網路爬蟲概述