nutch全網爬行的底層命令

2021-05-24 09:16:16 字數 1285 閱讀 5219

最近在研究nutch,找到了關於使用底層命令進行全網爬行的資料。

首先獲得**集,使用http://rdf.dmoz.org/rdf/ 目錄下的content.example.txt 檔案做測試,建立資料夾dmoz

命令:bin/nutch org.apache.nutch.tools.dmozparser content.example.txt >dmoz/urls

命令:bin/nutch inject crawl/crawldb dmoz

建立抓取列表:

命令:bin/nutch generate crawl/crawldb crawl/segments

把segments下的檔案儲存到變數s1中,供以後呼叫:

命令:s1=`ls -d crawl/segments/2* | tail -1`

命令:echo $s1

注`不是單引號,而是左上角跟~乙個鍵位的那個

執行fetcher獲取這些url資訊:

命令:bin/nutch fetch $s1

更新資料庫,把獲取的頁面資訊存進資料庫中:

命令:bin/nutch updatedb crawl/crawldb $s1

第一次抓取結束。

接下來選擇分值排在前10的url來進行第二次和第三次抓取:

命令:bin/nutch generate crawl/crawldb crawl/segments -topn 10

命令:s2=`ls -d crawl/segments/2* | tail -1`

命令:echo $s2

命令:bin/nutch fetch $s2

命令:bin/nutch updatedb crawl/crawldb $s2

命令:bin/nutch generate crawl/crawldb crawl/segments -topn 10

命令:s3=`ls -d crawl/segments/2* | tail -1`

命令:echo $s3

命令:bin/nutch fetch $s3

命令:bin/nutch updatedb crawl/crawldb $s3

根據segments的內容更新linkdb資料庫:

命令:bin/nutch invertlinks crawl/linkdb crawl/segments/*

建立索引:

命令:bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*

可以通過此命令進行查詢:

nutch的一些讀取命令

最近在研究nutch,整理了一下關於讀取資源資料的命令。檢視具體的url,以163為例 bin nutch readdb url crawldb url 2.檢視linkdb資料庫的鏈結情況 bin nutch readlinkdb url linkdb url 3.檢視segments bin n...

mysql的命令不是太全,網上貼上的,求大牛補充

啟動 net start mysql 進入 mysql u root p mysql h localhost u root p databasename 列出資料庫 show databases 選擇資料庫 use databasename 列出 show tables 顯示 列的屬性 show c...

Android底層控制系統設定的命令集合

1 關機 poweroff f 2 設定系統時間 date s yyyymmdd.hhmmss 3 lcd背光開關 echo enable disable sys class lcd debug 4 pm命令 察看已安裝的包 pm list package 此時則顯示所有已經安裝的包名。pm lis...