爬蟲的高階須知

一設計抓取策略

1 深度優先

2 廣度優先

3 部分的pagerank策略

4 opic策略

5 大站優先策略

二垂直搜尋爬蟲

垂直搜尋與通用搜尋不同之處在於，通用搜尋不需要理會**哪些資源是需要的，哪些是不需要的，一併抓取並將其文字部分做索引。而垂直搜尋裡，我們的目標**往往在某一領域具有其專業性，其整體**的結構相當規範，並且垂直搜尋往往只需要其中一部分具有垂直性的資源，所以垂直爬蟲相比通用爬蟲更加精確。

垂直爬蟲抓取資料分成三個步驟：list-crawling(列表url抓取)，detail-crawling(詳情url抓取)，data-extract and store (資料抽取和儲存)，其實原理上並不複雜，以下是整體垂直搜尋的架構及流程圖：

1. 首先運營人員會選定需要抓取的目標**，錄入資料庫的站源表sitelist，即這些url作為爬蟲的seed。同時，開發人員會在爬蟲規則庫中增加相應**的規則解析。

2．crawler讀取種子url，根據事先制定的規則（一般是正規表示式規則），從種子url中進行列表頁url的抽取，並提取出來儲存到資料庫中（實際工作中，直接抽取出來放到排程佇列中，繼續抓取）。需要注意的是，很多**的列表頁的url都是通過js的方式處理的，因此制定規則時，需要懂得js分析。

3. 進行列表頁url的請求，之後抽取出詳情頁的url列表

4. 進行詳情頁url的請求，之後抽取出具體的資料。

以上就是垂直爬蟲的工作過程，為什麼要分成三步走呢？這樣能夠將風險分化，不至於某個地方錯了，必須整個重來。

三改善排程演算法

四增量爬取

五監控流程

pass