Nutch的local和deploy模式

2021-07-25 22:20:22 字數 927 閱讀 5971

local模式:

1.將hbase安裝目錄下lib 下面的所有*.jar 複製到nutch/runtime/local/lib下2.

nutch/runtime/local/下先建立urls目錄mkdir urls,目錄下建立seed.txt touch seed.txt,

如果能正常執行,則萬事大吉,你會在hbase中發現乙個叫做'nutchtable_webpage'的表,所有nutch抓取的資料都會在該表中存放。

deploy模式:

1.將hbase安裝目錄下

lib 

下面的*.jar 複製到 hadoop/share/hadoop/mapreduce下

2.nutch/runtime/deploy/下先建立urls目錄mkdir urls,目錄下建立seed.txt touch seed.txt,再put乙個urls檔案到hdfs根目錄上

hadoop fs -put urls/ /

切換到bin目錄下之後執行:./nutch inject hdfs://master:9000/urls

如果能正常執行,則萬事大吉,你會在hbase中發現乙個叫做'webpage'的表,所有nutch抓取的資料都會在該表中存放。

global 和 local 的區別

global 和local 的區別 global 是全域性的 有幾行資料程式就要回放幾次 不能重新設定 local 是區域性的 有幾行資料action 就要回訪幾次 設定action的重複次數的操作 反擊action,選擇action call property,即可進行選擇.下面有幾種情況 1.當...

nutch和lucene的區別

想做乙個搜尋引擎,最近瀏覽了許多社群,發現lucene和nutch用的很多,而這兩個我總感覺難以區分概念,於是在查了些資料。下面是lucene和nutch創始人doug cutting 的訪談摘錄 lucene其實是乙個提供全文文字搜尋的函式庫,它不是乙個應用軟體。它提供很多api函式讓你可以運用到...

Heritrix 和 Nutch的區別

總體來說 heritrix 網路蜘蛛的功能更為強大,nutch 更好地支援搜尋引擎 與 lucene 緊密結合 兩者特點對比如下 nutch 是乙個搜尋引擎框架,而 heritrix nutch heritrix 則可以適用各種型別資訊,嚴格保持網頁原貌。nutch 的更新策略是直接替換原來的舊網頁...