windows下配置nutch注意的問題

2022-03-24 22:26:15 字數 1519 閱讀 2931

1.為處理方便,直接在$nutch目錄下建立乙個名為url.txt檔案,然後在檔案裡新增要搜尋的**,例如:注意**最後的"/"一定要有。前面的"http://"也是必不可少的。

2.配置crawl-urlfilter.txt

開啟$nutch/conf/crawl-urlfilter.txt,找到這兩行

紅色部分是乙個正則,改寫為如下形式

3.修改$nutch\conf\nutch-site.xml為如下內容,否則不會抓取。

執行crawl抓取網頁

1.首先在nutch-0.9根目錄下建乙個logs資料夾,在該資料夾下建乙個logs1.txt檔案。

2.在cygwin2控制台下轉到nutch目錄下,例如nutch安裝在f:\nutch-0.9下,則輸入如下命令: cd f:\nutch-0.9.

執行如下命令,開始抓取指定網頁中的內容。其中斜體的部分需要注意。

bin/nutch crawl url.txt

-dir mydir

-depth 2

-threads

4其中:

-url.txt

就是剛才我們建立的url.txt檔案,檔案中存放我們要抓取的**;

-dir

指定抓取內容所存放的目錄,如上存在mydir中;

-threads

指定併發的執行緒數;

-depth 指定從根url起將要爬行的深度;

通常抓取的時間會有5-10分鐘。抓取後,在nutch目錄下生成乙個mydir

資料夾。

每次抓取時,會檢查$nutch是否存在與mydir

相同的資料夾名,如果存在,會丟擲異常。

抓取結束後會在mydir

目錄下生成如下結構的目錄。

同時在&nutch下會生成logs目錄,在此目錄下會生成乙個hadoop.log的日誌檔案。包括抓取網頁的過程描述。

5.搜尋抓取檔案的設定

改為searcher.dir

d:\\nutch-0.9\\mydir

value屬性的值為從**抓取的檔案存放的路徑,也就是上文中mydir

的完整路徑。

6.搜尋亂碼的解決

如結果出現亂碼將tomcat\conf下的server.xml中的connector部分改成如下形式:(紅色部分為新增的)

uriencoding="utf-8" usebodyencodingforuri="true"

/>

nutch配置成功

nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...

Linux下配置單機nutch1 2

1.準備 apache nutch 1.2 bin.tar.gz apache tomcat 7.0.22.tar.gz 2.步驟 1 解壓tar xzvf apache nutch 1.2 bin.tar.gz到指定目錄,本文為 home ncut 目錄下 原來 http a z0 9 my.do...

Nutch 配置 可恥的失敗

滿以為萬事大吉了,誰想到乙個配置錯誤讓我木鑾了2 3個小時,當我配置好各種引數進行索引的時候,發現索引速度非常快,不到1分鐘就索引完畢了,不對啦,速度也不能這樣快啊,我們整個網路再說也有好幾百兆的東西,下來一看索引大小總共才3k多,我哭,怎麼回事,反正今天上午沒搞定,還延長了半個小時時間,後來回去,...