基於webmagic爬蟲框架的專案記錄

2022-08-28 02:12:13 字數 822 閱讀 1491

1、為什麼選定了webmagic?

剛開始做的時候採用的是 httpclient+htmlparser+dom4j,主要說下為什麼使用了dom4j,現在的webmagic也是採用了dom4j,這裡主要是需要解析乙個**,這個**的位址比較特殊,翻頁位址一次性儲存到了js方法裡,普通的html節點無法獲取到,所以採用dom4j就是為了獲取js裡的位址內容。

1)        後來2.0版本直接換成了webmagic,這個比較好用,優點:

3)        可以記錄爬過的位址,方便去重;

4)        可以start和shutdown爬蟲;

5)        執行緒池;

6)        還有好多慢慢體會吧。

順便說下python的爬蟲,當時在選用webmagic之前特地學的python,怎麼說呢,適合沒啥基礎的學,上手快。沒有feel,其實。。。就是不保密,成果很容易被copy另一家gs。

2、實現的功能點

基本的爬蟲功能:爬取頁面特定節點,節點資訊處理。

還有就是crud,例如:**的xpath、url、備份到其他資料庫的功能。

定時爬取等等。

3、難點(坑)

新聞類的麼,**頁面還是比較好分析的,沒那麼多的介面需要對接分析。

日誌前端列印的websocket,注意jdk版本,tomcat版本好像也沒啥了。給個學習的連線:

報jsr 356調整版本。

定時任務:

暫停執行緒池裡的執行緒:研究一天半,沒啥思路,各路網友提供下方向吧,在此跪謝。(ps:原來是想設計乙個公共變數,每次啟動新執行緒去判斷。如果暫停就是變為false。但是...不知道咋弄啊,改原始碼?複寫?)

基於webmagic框架的多主題爬蟲關鍵詞切換

eg 我們需要爬取同程旅遊網杭州的旅遊景點資訊,url是 eg 同程旅遊網從杭州到北京的國內遊,url是 第三頁是 浙江 消防 pn 10 浙江 消防 pn 20 兩種方式的配置舉例如下 filters searchfilter kwfixvalue 浙江,江蘇,上海,北京,天津 kwvalue 火...

WebMagic 爬蟲框架學習

而spider則將這幾個元件組織起來,讓它們可以互相互動,流程化的執行,可以認為spider是乙個大的容器,它也是webmagic邏輯的核心。webmagic總體架構圖如下 1.2.pageprocessor pageprocessor負責解析頁面,抽取有用資訊,以及發現新的鏈結。webmagic使...

基於WebMagic的CSDN部落格爬蟲

剛入職沒有多久,開發任務不是太重,很多功能的開發不能全部參與,閒暇之餘,mentor給了乙個小的開發任務 把美周內部共享的電子書全部爬取下來 其實剛接到這個任務不知道怎麼入手,便查了相關的爬蟲工具,如nutch heritrix crawler4j webmagic等等。其中webmagic是國人黃...