Linux下配置單機nutch1 2

2021-06-01 12:13:03 字數 1154 閱讀 3605

1.準備:

apache-nutch-1.2-bin.tar.gz

apache-tomcat-7.0.22.tar.gz

2.步驟:

(1)解壓tar -xzvf apache-nutch-1.2-bin.tar.gz到指定目錄,本文為/home/ncut/目錄下

原來:+^http://([a-z0-9]*\.)*my.domain.name/

改為:+^http://([a-z0-9]*\.)*或者:+^http://([a-z0-9]*\.)*www.baidu.com

(4)開啟nutch-1.2/conf/nutch-site.xml,加入下面內容

這部分是必須的,可以是任意的名字

至此nutch的基本配置完成。

(5)開始爬取網頁

bin/nutch crawl urls -dir crawl -depth 2 -topn 100 -threads 2

其中:  

urls是爬取的入口位址

bin/nutch org.apache.nutch.searcher.nutchbean searchwors

其中searchwors

是要搜尋的關鍵字,返回搜尋結果。

3.通過tomcat進行web搜尋

(1)解壓tar xzvf apache-tomcat-7.0.22.tar.gz包到指定目錄

searcher.dir

/home/ncut/nutch-1.2/crawl

這個value值為所爬取到的資料的儲存路徑,搜尋引擎根據這個路徑搜尋到使用者想要的內容。

(3)在web上進行nutch搜尋

在瀏覽器中輸入http://localhost:8080/nutch-1.2,顯示nutch的搜尋介面。

(4)亂碼處理

如果出現亂碼,則將tomcat安裝目錄下conf/server.xml定位到connector並修改一下:

uriencoding="utf-8"

usebodyencodingforuri="true"/>

Linux下solr單機配置

solr的安裝與執行需要jdk的支援,所以要先安裝jdk 1,把solr的壓縮包和aphace的壓縮包上傳到linux的root目錄下 2,解壓solr,tomcat把解壓後的檔案放到 usr solr 新建資料夾solr 找到solr.war壓縮包 然後,新建資料夾solr,解壓solr.war檔...

zookeeper 配置 linux 單機

1.解壓 tar xzvf zookeeper 3.4.6.tar.gz 2.進入目錄zookeeper 3.4.6中,將conf目錄中的zoo sample.cfg檔案複製為zoo.cfg並利用vi命令進行修 改 1 複製並重命名 cp usr local zookeeper zookeeper ...

nutch配置成功

nutch配置成功,現在進行關鍵的技術選型。根據專案特殊情況及實現中文搜尋可能存在的問題,提出三套技術方案,除自己外,另安排一人選擇第三套方案進行實施測試,預期一周後進行根據測試情況選擇具體的實施方案。由自己負責第一套方案的測試,目前需進行的工作 1 綜合比較nutch和heritrix,選擇合適的...