網路爬蟲十九 定製規則擴充套件為垂直爬蟲

2021-07-29 17:35:36 字數 842 閱讀 6489

在垂直搜尋的索引建立之前,我們需要到垂直**上抓取資源並做一定的處理。垂直搜尋與通用搜尋不同之處在於,通用搜尋不需要理會**哪些資源是需要的,哪些是不需要的,一併抓取並將其文字部分做索引。而垂直搜尋裡,我們的目標**往往在某一領域具有其專業性,其整體**的結構相當規範(否則使用者體驗也是個災難,想想東一篇文章西一篇文章基本沒人會喜歡),並且垂直搜尋往往只需要其中一部分具有垂直性的資源,所以垂直爬蟲相比通用爬蟲更加精確。

垂直爬蟲爬取資源步驟:

首先選定需要抓取的目標**,輸入資料庫的站源表sitelist,然後url crawler會讀取出來存入map,並提出對應站點的正則解析規則。

然後根據事先制定的url列表頁正規表示式,url crawler到列表頁爬取列表並提取出來存入資源url表urllist,當中涉及一些列表頁分頁功能,具體視每個**分頁url規則而定。

從資料庫的資源url表讀出urls及其資源頁的爬取規則,存入乙個同步的佇列中(一般做法會將url做md5處理,用於去重,以免重複爬取相同url,浪費資源),多執行緒下的每個爬蟲程式將從此佇列讀取urls(若隊列為空執行緒將進入等待),然後爬取每個資源頁並保持頁面。

最後根據爬取到的頁面,進行進一步的處理。

int extract_url(regex_t *re, char *str, url *ourl)  

char *url = attach_domain(tmp, ourl->domain);

if (url != null)

if (iscrawled(surl->url)) else

} }

return (p-str);

}

定製網路課件

第一部分,主要是理論講述內容 1 什麼是 2 為什麼做 的重要性 可達成的目標 3 的分類方式 第二部分,從開始到結束的整個過程 4 八步曲 制定 目標 制定 策略 制定 方案 成本估測 法律諮詢 認定 實施的具體方案 執行 效果評估 客戶要求 1 提供2課時左右的課件 2 課件不但可以利用單機使用...

網路爬蟲 多執行緒爬蟲

多執行緒爬蟲 import threading class one threading.thread def init self threading.thread.init self def run self for i in range 0,10 print 我是執行緒1 class two th...

網路爬蟲技術

網路爬蟲技術 1 不同領域 不同背景的使用者往往具有不同的檢索目的和需求,通用搜尋引擎所返回的結果包含大量使用者不關心的網頁。2 通用搜尋引擎的目標是盡可能大的網路覆蓋率,有限的搜尋引擎伺服器資源與無限的網路資料資源之間的矛盾將進一步加深。4 通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資...