爬蟲的高階須知

2022-04-04 20:28:01 字數 830 閱讀 7333

一 設計抓取策略

1 深度優先

2 廣度優先

3 部分的pagerank策略

4 opic策略

5 大站優先策略

二 垂直搜尋爬蟲

垂直搜尋與通用搜尋不同之處在於,通用搜尋不需要理會**哪些資源是需要的,哪些是不需要的,一併抓取並將其文字部分做索引。而垂直搜尋裡,我們的目標**往往在某一領域具有其專業性,其整體**的結構相當規範,並且垂直搜尋往往只需要其中一部分具有垂直性的資源,所以垂直爬蟲相比通用爬蟲更加精確。

垂直爬蟲抓取資料分成三個步驟:list-crawling(列表url抓取),detail-crawling(詳情url抓取),data-extract and store (資料抽取和儲存),其實原理上並不複雜,以下是整體垂直搜尋的架構及流程圖:

1.  首先運營人員會選定需要抓取的目標**,錄入資料庫的站源表sitelist,即這些url作為爬蟲的seed。同時,開發人員會在爬蟲規則庫中增加相應**的規則解析。

2.crawler讀取種子url,根據事先制定的規則(一般是正規表示式規則),從種子url中進行列表頁url的抽取,並提取出來儲存到資料庫中(實際工作中,直接抽取出來放到排程佇列中,繼續抓取)。需要注意的是,很多**的列表頁的url都是通過js的方式處理的,因此制定規則時,需要懂得js分析。

3.  進行列表頁url的請求,之後抽取出詳情頁的url列表

4.  進行詳情頁url的請求,之後抽取出具體的資料。

以上就是垂直爬蟲的工作過程,為什麼要分成三步走呢?這樣能夠將風險分化,不至於某個地方錯了,必須整個重來。

三 改善排程演算法

四 增量爬取

五 監控流程

pass

爬蟲須知知識點

uri 統一資源標誌符,url 統一資源定位符。關係 url是uri的子集。3.超文字可以理解為網頁的源 http 超文字傳輸協議,用於從網路傳輸超文字資料到本地瀏覽器的傳送協議。優點 高效而準確。https http的安全版,安全基礎是ssl,傳輸內容經過ssl加密。請求方法 get和post g...

爬蟲高階(序)

requests庫的簡單使用 正規表示式的簡單使用 beautifu soup的簡單使用 上課的時候走神了,現在只是了解 scrapy爬蟲框架的基本使用 mongode資料庫的簡單使用 redis資料庫的簡單使用 xpath的基本使用 動態頁面的爬取 覺得爬蟲已經簡單的入門了,在編寫的時候有乙個體會...

HTML語言簡介 Python爬蟲學習須知

2 html元素和標籤 3 屬性 我的第一次 title head hello girl body html 我的第一次 title 非自閉和 utf 8 自閉和 自閉合 非自閉合 img h1 video h2 meta p a div utf 8 我的第一次 title stylesheet h...