Nutch和Lucene的區別

2021-07-09 05:47:38 字數 923 閱讀 6618

想做乙個搜尋引擎,最近瀏覽了許多社群,發現lucene和nutch用的很多,而這兩個我總感覺難以區分概念,

於是在查了些資料。下面是lucene和nutch創始人doug cutting 的訪談摘錄:

lucene其實是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到各

種實際應用程式中。現在,它已經成為apache的乙個專案並被廣泛應用著。這裡列出一些已經使用lucene的系統。

nutch是乙個建立在lucene核心之上的web搜尋的實現,它是乙個真正的應用程式。也就是說,你可以直接下

載下來拿過來用。它在lucene的基礎上加了網路爬蟲和一些和web相關的東東。其目的就是想從乙個簡單的站內索

引和搜尋推廣到全球網路的搜尋上,就像google和yahoo一樣。當然,和那些巨人競爭,你得動一些腦筋,想一些

辦法。我們已經測試過100m的網頁,並且它的設計用在超過1b的網頁上應該沒有問題。當然,讓它執行在一台機器

上,搜尋一些伺服器,也執行的很好。

總的來說,我認為lucene會應用在本地伺服器的**內部搜尋,而nutch則擴充套件到整個網路、internet的檢

索。當然lucene加上爬蟲程式等就會成為nutch,這樣理解應該沒錯吧。

簡單的說:  

z  lucene 不是完整的應用程式,而是乙個用於實現全文檢索的軟體庫。 

z  nutch  是乙個應用程式,可以以 lucene 為基礎實現搜尋引擎應用。 

lucene 為 nutch 提供了文字索引和搜尋的 api。乙個常見的問題是;我應該使用 lucene 還是nutch?最簡單

的回答是:如果你不需要抓取資料的話,應該使用lucene。常見的應用場合是:你有資料來源,需要為這些資料提供一

個搜尋頁面。在這種情況下,最好的方式是直接從資料庫中取出資料並用 lucene api 建立索引。 

nutch和lucene的區別

想做乙個搜尋引擎,最近瀏覽了許多社群,發現lucene和nutch用的很多,而這兩個我總感覺難以區分概念,於是在查了些資料。下面是lucene和nutch創始人doug cutting 的訪談摘錄 lucene其實是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到...

Heritrix 和 Nutch的區別

總體來說 heritrix 網路蜘蛛的功能更為強大,nutch 更好地支援搜尋引擎 與 lucene 緊密結合 兩者特點對比如下 nutch 是乙個搜尋引擎框架,而 heritrix nutch heritrix 則可以適用各種型別資訊,嚴格保持網頁原貌。nutch 的更新策略是直接替換原來的舊網頁...

Nutch的local和deploy模式

local模式 1.將hbase安裝目錄下lib 下面的所有 jar 複製到nutch runtime local lib下2.nutch runtime local 下先建立urls目錄mkdir urls,目錄下建立seed.txt touch seed.txt,如果能正常執行,則萬事大吉,你會...