網路爬蟲的故事

2021-08-28 03:30:57 字數 559 閱讀 2170

爬蟲是什麼

蜘蛛是生物界中很普通的小蟲子,但是它卻做了一件令人非常佩服的事情–織網捕物。蜘蛛經常會在自己所織的網上捕獲食物,而這一行為就如同我們人類想在關係複雜的網際網路上獲取我們想要的資料。人類是非常聰明和偷懶的,他是不會自己去浩海如煙的網際網路中獲取「食物」的。那麼為了能夠更高效的獲取資料,人類通常會創造乙隻小精靈–「小爬蟲」去幫助自己做事情。

爬蟲結構

那麼我們來分析一下這小精靈身上有哪些特異功能,它有若干個小腦袋–控制節點,每個小腦袋連線著若干個觸角–爬蟲結點。各腦袋之間可以相互交流,腦袋和各觸角之間也可交流。

腦袋是需要根據請求位址來分配執行緒並負責排程觸角的。而觸角是去捕獲獵物,並將獵物收拾好放入儲存袋中的。

聚焦網路爬蟲的組成以及流程(基於主題)

初始url集合、url佇列、頁面爬行模組、頁面分析模組、頁面資料庫、鏈結過濾、內容評價和鏈結評價,模組等組成。

1、定義或描述爬取的目標

2、獲取初始url

3、爬取頁面並獲得新的url

4、過濾無關地鏈結並將新的url(符合主題)入隊

5、確定下一步要爬取的鏈結。

網路爬蟲的網路規範

網路爬蟲的尺寸 網路爬蟲的 效能騷擾 web伺服器預設接收人類訪問 受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷 網路爬蟲的法律風險 伺服器上的資料有產權歸屬 網路爬蟲獲取資料後牟利將帶來法律風險 網路爬蟲的隱私洩露 網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料 從而...

網路爬蟲的實現

網路爬蟲常常被人所忽略,特別是和搜尋引擎的光環相比,它似乎有些暗淡無光。我很少看見有詳細介紹爬蟲實現的文章或者文件。然而,爬蟲其實是非常重要的乙個系統,特別是在今天這個資料為王的時代。如果你是乙個剛剛開始的公司或者專案,沒有任何原始的資料積累,那麼通過爬蟲去internet上找到那些有價值的資料再進...

網路爬蟲 多執行緒爬蟲

多執行緒爬蟲 import threading class one threading.thread def init self threading.thread.init self def run self for i in range 0,10 print 我是執行緒1 class two th...