網路爬蟲學習筆記 一 網路爬蟲概述

2021-07-23 08:11:27 字數 1048 閱讀 8651

網路爬蟲(又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

爬蟲的基本結構框架流程圖如下:

網路爬蟲的基本框架如下:

1 首先需要乙個已知的種子url庫

2 讀取已知的種子url集合到帶抓取集合中

3 抓取執行緒讀取帶抓取集合中的種子url,進行抓取解析

4 將解析到的結果儲存到指定的位置中

5 將抓取過的url插入到已抓取的佇列中

1 寬度優先遍歷策略

寬度優先遍歷策略是最簡單的遍歷方式,爬蟲通過抓取種子url,解析到需要的鏈結位址後,將這個鏈結位址直接新增到帶抓取的url佇列中

具體的抓取順序為: a -> b -> c -> d -> e -> f

2 深度優先遍歷策略

深度優先遍歷策略主要是通過抓取種子url後,對新抓到的鏈結位址立即進行抓取,知道抓取到最深度,也就是沒有在滿足要求的鏈結位址為止。具體的抓取順序如下:

a -> b -> d -> e -> c -> f

3 非完全pagerank頁面

pagerank演算法是google提出來的,主要是用於分析頁面的重要性上,頁面重要性的衡量主表為:

1 入鏈的個數

2 頁面質量

針對某個網際網路網頁a來說,該頁面的pagerank的計算基於以下兩個假設:

1 數量假設:如果乙個頁面節點接收到的其他頁面的執行的入鏈數越多,那麼這個頁面越重要

2 質量假設:指向頁面a的入鏈的質量不同,質量高的頁面通過連線其他頁面傳遞質量,越是質量高的頁面執行a,則a越重要

通過以上兩個假設,pagerank演算法剛開始賦予每個頁面相同的質量權重,通過迭代遞迴計算的方式,來更新每個頁面的pagerank的得分,知道得分穩定為止。

4 opic策略

5 大站優先策略

網路爬蟲 一 網路爬蟲基本原理

一 網路爬蟲的基本結構及工作流程 乙個通用的網路爬蟲的框架如圖所示 網路爬蟲的基本工作流程如下 1.首先選取一部分精心挑選的種子url 2.將這些url放入待抓取url佇列 4.分析已抓取url佇列中的url,分析其中的其他url,並且將url放入待抓取url佇列,從而進入下乙個迴圈。二 從爬蟲的角...

Python網路爬蟲與資訊提取(一)網路爬蟲前奏

本專題面向具有python程式設計基礎的各類學習者,講解利用python語言爬取網路資料並提取關鍵資訊的技術和方法,幫助學習者掌握定向網路資料爬取和網頁解析的基本能力。本專題介紹python計算生態中最優秀的網路資料爬取和解析技術,具體講授構建網路爬蟲功能的兩條重要技術路線 requests bs4...

一 網路爬蟲之入門 2

web伺服器預設接收人類訪問 受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷 伺服器上的資料有產權歸屬 網路爬蟲獲取資料後牟利將帶來法律風險 網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料 從而洩露個人隱私 檢查來訪http協議頭的user agent域,只響應瀏覽器或友...