webmagic總體架構分析

2021-09-22 18:51:26 字數 619 閱讀 3153

在筆記(2)、筆記(3)裡,我們對webmagic的eclipse開發環境進行了配置並完成了第乙個小爬蟲的編寫,以上算是對webmagic進行了一次感性的認識。從本篇博文開始,開始學習webmagic的實現細節。 

一下內容是我在使用了webmagic進行一些小爬蟲編寫的基礎上的一些自己的認識,很大一部分受官方的使用手冊影響。說白了,就是自己在理解的基礎上重新打了一遍。 

首先,祭出總體架構圖。 

從圖中很明顯看出webmagic的四大元件:pageprocessor、pipeline、**********、scheduler。

1.pageprocessor 

對於像我這樣的小白來說pageprocessor是實現整個爬蟲的需要自己編寫的核心** 。pageprocessor負責解析頁面,並根據自己的需求抽取有用資訊(包括新的鏈結)。如果是簡單的爬蟲,只需要自己定製這一部分即可。

2.pipeline 

pipeline負責了抽取結果的處理。比如你想把爬取的資料儲存至資料庫就可以通過pipeline實現(需要自己寫對應的pipeline),webmagic預設提供了輸出至控制台和儲存到檔案兩種方案。例子如每爬取乙個新的頁面,原始碼會自動通過consolepipeline將本頁面的url輸出至控制台,如下圖: 

Tomcat 總體架構

首先一定要先感謝 tomcat架構解析 一書的作者劉光瑞,對於我這樣的新手來說,這本書關於tomcat總體架構的介紹能夠讓我快速的了解整個架構的設計背景,達到了循序漸進的目的,在這裡非常推薦新手入手一本。最後這個章節主要是介紹tomcat整體架構的,整體內容主要在於模組介紹以及關聯,希望通過這個章節...

IMS總體架構

ims總體架構 如上圖所示,ims總體架構通常分為三層,接入層 呼叫控制層 業務應用層 上圖中,ims網路主要網元功能說明如下 當前我們主要關注圖中藍色圈點的幾個網元,包括 sip終端 p cscf i cscf s cscf hss as 後續分析總結中主要基於這些網元的互動進行詳細描述。參考文件...

Mysql總體架構

授權命令 grant 許可權1 許可權2 許可權n on 資料庫名稱.表名稱 to 使用者名稱 使用者位址 identified by 連線口令 該許可權如果發現沒有該使用者,則會直接新建乙個使用者。grant select,insert,delete,drop on atguigudb.to li...