Heritrix 和 Nutch的區別

2021-06-26 13:00:25 字數 967 閱讀 1643

總體來說

heritrix

網路蜘蛛的功能更為強大,

nutch

更好地支援搜尋引擎(與

lucene

緊密結合)。兩者特點對比如下:

nutch

是乙個搜尋引擎框架,而

heritrix

nutch

heritrix

則可以適用各種型別資訊,嚴格保持網頁原貌。

nutch

的更新策略是直接替換原來的舊網頁,為索引作好準備;而

heritrix

都以任務形式管理,

nutch

只支援命令列,

heritrix

還支援web

控制介面。

nutch

heritrix

更加靈活。

heritrix 是個 "archival crawler" -- 用來獲取完整的、精確的、站點內容的深度複製。包括獲取影象以及其他非文字內容。抓取並儲存相關的內容。對內容來者不拒,不對頁面進行內容上的修改。重新爬行對相同的url不針對先前的進行替換。爬蟲通過web使用者介面啟動、監控、調整,允許彈性的定義要獲取的url。

heritrix

中有幾個關鍵模組這裡介紹一下:

crawlcontroller

frontier

中位址列表傳遞給執行緒池中的

toethreads

邊界控制器

frontier

。用來確定下乙個將抓取的網頁。實現對**訪問的均衡處理,避免多執行緒同時訪問同乙個**造成**壓力。

frontier

內至少包含最新發現的

url、正在處理的

urlurl

。伺服器快取

servercache

。實現搜尋引擎中的

dns快取。

servercache

中存放伺服器的持久資訊,包括

ip

nutch和lucene的區別

想做乙個搜尋引擎,最近瀏覽了許多社群,發現lucene和nutch用的很多,而這兩個我總感覺難以區分概念,於是在查了些資料。下面是lucene和nutch創始人doug cutting 的訪談摘錄 lucene其實是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到...

Nutch和Lucene的區別

想做乙個搜尋引擎,最近瀏覽了許多社群,發現lucene和nutch用的很多,而這兩個我總感覺難以區分概念,於是在查了些資料。下面是lucene和nutch創始人doug cutting 的訪談摘錄 lucene其實是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到...

Heritrix的主要模組

1 frontier 鏈結工廠 是heritrix最核心的部分,有三個核心的方法 next,schedule,finished,其原型及作用如下 a 程提供乙個鏈結.heritrix的所有處理執行緒 toethread 都是通過呼叫該方法獲取鏈結的 b schedule candidateuri c...