爬蟲基本原理及概念

2021-08-25 12:13:39 字數 721 閱讀 3059

爬蟲在網路中爬行的時候,將web 上的網頁集合看成是乙個有向圖,從給定的起始

1、深度優先演算法

該演算法是指網路爬蟲會從選定的乙個超連結開始,按照一條線路,乙個乙個鏈結訪

問下去,直到達到這條線路的葉子節點,即不包含任何超連結的html 檔案,處理完這

到達葉子結點。這個方法有個優點是網路爬蟲在設計的時候比較容易。

2、廣度優先演算法

廣度優先演算法是指網路爬蟲會先抓取起始網頁中包含鏈結的所有網頁,然後再選擇

其中的乙個鏈結網頁,繼續抓取在這個網頁中鏈結的所有網頁。這種搜尋方法是實現通

用網路爬蟲的最佳方法,因為它的特點是易於實現,並且能夠避免陷進乙個無窮盡的深

層分支中去,可以讓網路爬蟲並行處理,從而提高其抓取速度。

3、啟發式搜尋演算法

達目標節點的最佳路徑,刪除不好節點,保留那些好的節點,該演算法主要用於主題爬蟲。

分布式網路爬蟲可以看做由多個集中式網路爬蟲組合而成。分布式系統中的每個節

點都可以看作乙個集中式網路爬蟲。分布式爬蟲與集中式爬蟲工作原理基本相同,但前

者需要各個節點協作完成網頁的爬行,從而使得分布式爬蟲的效率遠遠高於集中式爬

蟲。分布式爬蟲的系統結構有很多種,工作方式也各不相同。對於典型的分布式爬蟲系

統,它的每個節點不僅從web 頁面獲得url,同時也從其它節點接收url。然後節點

對url 對應的網頁進行解析,並將不屬於自己爬行範圍的url **給其它節點。

爬蟲基本原理

一 爬蟲是什麼?爬蟲要做的是什麼?使用者獲取網路資料的方式是 爬蟲程式要做的就是 區別在於 我們的爬蟲程式只提取網頁 中對我們有用的資料 為什麼要做爬蟲 爬蟲的價值 網際網路中最有價值的便是資料,比如天貓 的商品資訊,鏈家網的租房資訊,雪球網的 投資資訊等等,這些資料都代表了各個行業的真金 可以說,...

爬蟲基本原理

三種爬蟲方式 通用爬蟲 抓取系統重要組成部分,獲取的是整張頁面資料 聚焦爬蟲 建立在通用爬蟲之上,抓取頁面指定的區域性內容 增量式爬蟲 檢測 資料更新的情況,只抓取更新出來的資料 https協議 安全的超文字傳輸協議 證書秘鑰加密 請求頭 響應頭 加密方式 傳送請求 獲取響應內容 解析內容 儲存資料...

爬蟲基本原理

一 爬蟲介紹 本質,就是想 傳送http請求,拿回一些頁面 json格式資料 request 處理資料,解析出有用的東西 re,bs4 儲存 mysql,檔案,cvs,redis,mongodb,es 分析 cookie池和 池 正向 和反向 正向 自己,反向 伺服器 爬蟲運用模組 requests...