爬蟲基本原理及概念

爬蟲在網路中爬行的時候，將web 上的網頁集合看成是乙個有向圖，從給定的起始

1、深度優先演算法

該演算法是指網路爬蟲會從選定的乙個超連結開始，按照一條線路，乙個乙個鏈結訪

問下去，直到達到這條線路的葉子節點，即不包含任何超連結的html 檔案，處理完這

到達葉子結點。這個方法有個優點是網路爬蟲在設計的時候比較容易。

2、廣度優先演算法

廣度優先演算法是指網路爬蟲會先抓取起始網頁中包含鏈結的所有網頁，然後再選擇

其中的乙個鏈結網頁，繼續抓取在這個網頁中鏈結的所有網頁。這種搜尋方法是實現通

用網路爬蟲的最佳方法，因為它的特點是易於實現，並且能夠避免陷進乙個無窮盡的深

層分支中去，可以讓網路爬蟲並行處理，從而提高其抓取速度。

3、啟發式搜尋演算法

達目標節點的最佳路徑，刪除不好節點，保留那些好的節點，該演算法主要用於主題爬蟲。

分布式網路爬蟲可以看做由多個集中式網路爬蟲組合而成。分布式系統中的每個節

點都可以看作乙個集中式網路爬蟲。分布式爬蟲與集中式爬蟲工作原理基本相同，但前

者需要各個節點協作完成網頁的爬行，從而使得分布式爬蟲的效率遠遠高於集中式爬

蟲。分布式爬蟲的系統結構有很多種，工作方式也各不相同。對於典型的分布式爬蟲系

統，它的每個節點不僅從web 頁面獲得url，同時也從其它節點接收url。然後節點

對url 對應的網頁進行解析，並將不屬於自己爬行範圍的url **給其它節點。

一爬蟲是什麼?爬蟲要做的是什麼？使用者獲取網路資料的方式是爬蟲程式要做的就是區別在於我們的爬蟲程式只提取網頁中對我們有用的資料為什麼要做爬蟲爬蟲的價值網際網路中最有價值的便是資料，比如天貓的商品資訊，鏈家網的租房資訊，雪球網的投資資訊等等，這些資料都代表了各個行業的真金可以說，...

三種爬蟲方式通用爬蟲抓取系統重要組成部分，獲取的是整張頁面資料聚焦爬蟲建立在通用爬蟲之上，抓取頁面指定的區域性內容增量式爬蟲檢測資料更新的情況，只抓取更新出來的資料 https協議安全的超文字傳輸協議證書秘鑰加密請求頭響應頭加密方式傳送請求獲取響應內容解析內容儲存資料...

一爬蟲介紹本質，就是想傳送http請求，拿回一些頁面 json格式資料 request 處理資料，解析出有用的東西 re，bs4 儲存 mysql，檔案，cvs，redis，mongodb，es 分析 cookie池和池正向和反向正向自己，反向伺服器爬蟲運用模組 requests...