談談爬蟲的設計

2021-08-31 15:29:30 字數 274 閱讀 9318

網路蜘蛛現在開源的已經有好幾個了,larbin,nutch,heritrix都各有使用者之地,要做乙個自己的爬蟲要解決好多個問題,比如排程演算法、更新策略、分布式儲存等,我們來一一看一下。

乙個爬蟲要做的事主要有以下這些

從乙個網頁入口,分析鏈結,一層一層的遍歷,或者從一組網頁入口,或者從乙個rss源列表開始爬rss;

獲取每個頁面的原始碼儲存在磁碟或者資料庫裡;

遍歷抓下來的網頁進行處理,比如提取正文,消重等;

根據用途把處理後的文字進行索引、分類、聚類等操作。

談談UI設計

軟體設計可分為兩個部分 編碼設計與ui設計。編碼設計大家都很熟悉,但是 ui設計還是乙個很陌生的詞,即使一些專門從事 與多 設計的人也不完全理解ui的意思。ui的本意是使用者介面,是英文user和 inte ce的縮寫。從字面上看是使用者與介面2個組成部分,但實際上還包括使用者與介面之間的互動關係。...

談談nodejs爬蟲程式利器 cheerio模組

cheerio是nodejs的抓取頁面模組,為伺服器特別定製的,快速 靈活 實施的jquery核心實現。適合各種web爬蟲程式。安裝方法 npm install cheerio 特性 相似的語法 cheerio 包括了 jquery 核心的子集。cheerio 從jquery庫中去除了所有 dom不...

談談初學爬蟲時候踩得坑

1,連線資料庫 db pymysql.connect 141.48.149.241 root ettewewt ku cursor db.cursor 上面這段話執行完成後會自動連線並且建立資料庫 ku 2,建資料庫表 t name tb name try cursor.execute create...