全站爬蟲專案一階段總結

2021-09-17 18:29:01 字數 505 閱讀 5594

這段時間給公司做全站爬蟲。一開始在公司框架內開發,耗費了大量的時間,仍然效果不好——因為受限於框架本身的邏輯,難以實現複雜的業務。

後來,轉向了scrapy,並將幾個關鍵的服務,比如鏈結過濾、列表頁識別和過濾,做成單獨的模組或者服務。

雖然現在效果仍然不理想,但已經是乙個可用、可調優的框架,在幾個關鍵環節,都實現了脫耦合,可以輕易的擴充套件。一些常用**,也通過scrapy 得到了充分的復用。

剩下的任務是

進一步提高列表頁的識別效率,可以考慮使用splash配合cnn的方法。

判斷頁面活躍度目前使用的方法速度太慢,還是要考慮重寫。

任務佇列的偽隨機機制也還沒有完成

在目前的框架下,這些都已經是可以期待的目標。

但仍有一些更艱鉅的任務,比如實現框架的可伸縮性,需要向docker遷移;更精細的監控和控制,需要hadoop化。這些可能都需要在scrapy-cluster下進行。

一階段專案 框架

關於框架 1.html檔案建立 設定id 2.js事例 function iframe dom else if dom 1 else if dom 2 aa.src bb 2 關於框架高度 onload this.hight 0 var fdh this.document?this.document...

一階段專案素材集合

3d翻轉樣式 滑鼠移上放大 用css樣式的滑鼠移上變大 滑鼠移上字型劃上顯示 class neirongzi1 style font size 18px width 100 height 650px position relative overflow hidden width 100 height...

一階段總結複習(HTML CSS)

q 當父盒子巢狀子盒子時,如果父盒子不給邊框子盒子給margin top時,父盒子會掉下來 a 解決方法 1 為父盒子設定border,為外層新增border後父子盒子就不是真正意義上的貼合。2 為父盒子新增overflow hidden 3 為父盒子設定padding值。q 浮動出現的原因,由於在...