python爬蟲之一 基本架構

2021-10-24 09:03:35 字數 1029 閱讀 9382

排程器:呼叫其他元件,並控制目標資料輸出;

url管理器:儲存待爬取、已爬取url,要防止爬取重複的url;

網頁解析器:解析html頁面中的文字資訊,獲取目標資料和新的url鏈結;

2.2.1 功能

維護待爬取集合和已爬取集合:判斷得到的url是否已爬取、將新的url新增到待爬取集合、判斷待爬取集合是否還有url、獲取待爬取url、將url從待爬取集合移動到已爬取集合

2.2.2 實現方法

待爬取和已爬取集合的實現方式:

記憶體:直接用python中set儲存;

關係型資料庫:用mysql儲存,設定記錄是否已爬取的字段;

快取型資料庫:用redis中set儲存;

2.3.1 功能

2.3.2 實現方法

urllib3:urlopen,最簡單直接提交請求;依賴於urllib3庫;

request:構造http請求頭、傳資料;依賴於requests庫;

handler:處理cookie、**、https、重定向;

2.4.1 功能點

2.4.2 實現方法

正規表示式:將html文件內容視為一整個字串,進行字串模式匹配;

結構化解析:將html文件結構視為dom樹,結點涵蓋html標籤、屬性、文字值三個方面,從這三個方面解析查詢;依賴包:beautifulsoup、html.paser、xpath。

實戰虛擬化 安全設計之一基本架構

傳統的安全設計思想在虛擬化中同樣適用。相比傳統伺服器安全而言,安全問題對於虛擬化平台顯得格外重要。因為使用者在利用虛擬化的眾多優勢的同時,可能會對因為共享帶來的潛在風險十分敏感。同時,集中了運算,儲存,網路於一體,也提高了虛擬化安全的廣度和複雜性。本文嘗試介紹虛擬化基本安全架構和設計思路,幫你在眾多...

實戰虛擬化 安全設計之一基本架構

傳統的安全設計思想在虛擬化中同樣適用。相比傳統伺服器安全而言,安全問題對於虛擬化平台顯得格外重要。因為使用者在利用虛擬化的眾多優勢的同時,可能會對因為共享帶來的潛在風險十分敏感。同時,集中了運算,儲存,網路於一體,也提高了虛擬化安全的廣度和複雜性。本文嘗試介紹虛擬化基本安全架構和設計思路,幫你在眾多...

LTE LTE基本架構

這篇文章主要介紹lte的最基礎的架構,包括lte網路的構成,每乙個網路實體的作用以及lte網路協議棧,最後還包括對乙個lte資料流的模型的說明。這是一張非常有名的lte架構圖,從圖中可以看出,整個網路構架被分為了四個部分,包括由中間兩個框框起來的e utran部分和epc部分,還有位於兩邊的ue和p...