如何除錯nutch

2021-07-07 02:52:48 字數 1193 閱讀 5482

【必須】匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classpath中

右鍵conf -> build path -> use as source folder

在執行時如發生異常:x point org.apache.nutch.net.urlnormalizer not found.

注:這是配置造成的,是外掛程式目錄的配置沒有正確,修改conf/nutch-default.xml檔案

plugin.folders

./src/plugin

...在執行時如發生異常:fetcher: no agents listed in 'http.agent.name' property.

檢查conf配置目錄中的nutch-default.xml和nutch-site.xml檔案中是否存在鍵:http.agent.name,

或存在鍵:

http.agent.name,但其值為空,一定要定義此鍵值,值可以任意,自已想名字吧。如:

//新增想抓取的url

1、建立待掃瞄的資料夾,然後在其中新建乙個檔案(檔名不限),在該檔案中寫入想抓取的**url,每行乙個,如:

2、conf/crawl-urlfilter.txt

#accept hosts in my.domain.name

+^http://([a-z0-9]*\.)*163.com/      ---寫入想抓取的**正規表示式

然後即可在eclipse中進行除錯或使用nutch進行爬行

進入nutch目錄

$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topn 50

crawl:通知nutch.jar,執行crawl的main方法。

urls:存放需要爬行的url.txt檔案的目錄

-dir mydir 爬行後檔案儲存的位置

-depth 2:爬行次數,或者成為深度,不過還是覺得次數更貼切,建議測試時改為1。

-threads 指定併發的程序 這是設定為4

-topn 50:乙個**儲存的最大頁面數。

注意爬網的時候mydir目錄不能存在,要不然會出錯

nutch1 9 nutch安裝記錄

nutch 安裝記錄 1.安裝windows下的linux模擬環境cygwin 3.在cygwin中進入nutch解壓縮目錄,使用命令cd cygdrive e nutch1.1 cygdrive是cygwin進入碟符的命令 4.執行bin nutch檢視是否可以成功執行 5.在nutch目錄下建立...

nutch配置成功

nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...

如何向nutch索引中新增自己的Field

向nutch中新增自己的field也是比較簡單的,和直接呼叫lucene向索引中新增field基本相同,首先設定新增的field是否要被儲存分詞索引,然後將field新增到nutchdocument中,其他的工作就nutch會自動完成 1 首先要在indexer的index函式配置執行索引工作前設定...