幾種開源網路爬蟲的簡單比較

2022-02-17 20:37:57 字數 468 閱讀 2200

爬蟲裡面做的最好的肯定是google ,不過google公布的蜘蛛是很早的乙個版本,下面是幾種開源的網路爬蟲的簡單對比表:

還有其他的一些比如ubicrawlerfast crawler天網蜘蛛等等沒有新增進來。

之後主要研究下larbin爬蟲,如果有可能會給它新增乙個刪除功能,因為其排重部分用的是bloom filter演算法,這個演算法的有點很明顯,對大規模資料的處理很快,效能很好,而且記憶體占用很小,但是什麼事都沒有盡善盡美的,該演算法的直接缺點就是不能刪除,還會出現誤判情況。關於bloom filter有很多相關**,網上也有些高質量的文章,暫時不做累述,之後如果自己有不一樣的看法,再寫關於該演算法的文章。

刪除功能的演算法暫時還不太確定,需要進一步了解,現在了解的counting bloom filter不錯,帶來的代價是記憶體占用高一點,園友們有什麼建議和想法歡迎提出來哈!

引自個人部落格位置

幾種排序演算法簡單比較

1 選擇排序 選擇排序是一種不斷在剩餘元素找最小元素的方法,該排序與陣列大小無關,資料移動較少。首先找到陣列最小元素,將它和陣列第乙個位置元素交換。再在剩下元素找最小元素,和陣列第二個位置的元素交換,依次進行。2 插入排序 插入排序適合接近有序元素的排序。首先將陣列前兩個元素按公升序排列,然後將第三...

html5中的幾種布局簡單比較

html中的布局主要由靜態布局 自適應布局 流式布局以及響應式布局幾類,簡單比較以下這幾種布局的區別和特點。一 靜態布局 static layout 表現 在傳統web設計中,不管瀏覽器尺寸具體大小多少,網頁的布局會一直按照最開始的布局來顯示。特點 固定死寬高。二 自適應布局 adaptive la...

檔案內容的簡單比較 C

acm刷題的時候,一道題老是過不了,輸出的時候又找不到錯誤。手頭剛好有同學ac 過的 突然就想到了可以同時遍歷所有測試範圍,輸出到檔案,通過比較這兩個輸出檔案的內容,找到不同點,可以反過來找到那個測試用例不能通過,進而找到問題 於是,動手敲 不過,雖然不能遍歷,但選取部分測試用例的時候,寫的這段 還...