nutch全網爬行的底層命令

最近在研究nutch，找到了關於使用底層命令進行全網爬行的資料。

首先獲得**集，使用http://rdf.dmoz.org/rdf/ 目錄下的content.example.txt 檔案做測試，建立資料夾dmoz

命令：bin/nutch org.apache.nutch.tools.dmozparser content.example.txt >dmoz/urls

命令：bin/nutch inject crawl/crawldb dmoz

建立抓取列表：

命令：bin/nutch generate crawl/crawldb crawl/segments

把segments下的檔案儲存到變數s1中，供以後呼叫：

命令：s1=`ls -d crawl/segments/2* | tail -1`

命令：echo $s1

注`不是單引號，而是左上角跟~乙個鍵位的那個

執行fetcher獲取這些url資訊：

命令：bin/nutch fetch $s1

更新資料庫，把獲取的頁面資訊存進資料庫中：

命令：bin/nutch updatedb crawl/crawldb $s1

第一次抓取結束。

接下來選擇分值排在前10的url來進行第二次和第三次抓取：

命令：bin/nutch generate crawl/crawldb crawl/segments -topn 10

命令：s2=`ls -d crawl/segments/2* | tail -1`

命令：echo $s2

命令：bin/nutch fetch $s2

命令：bin/nutch updatedb crawl/crawldb $s2

命令：bin/nutch generate crawl/crawldb crawl/segments -topn 10

命令：s3=`ls -d crawl/segments/2* | tail -1`

命令：echo $s3

命令：bin/nutch fetch $s3

命令：bin/nutch updatedb crawl/crawldb $s3

根據segments的內容更新linkdb資料庫：

命令：bin/nutch invertlinks crawl/linkdb crawl/segments/*

建立索引：

命令：bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*

可以通過此命令進行查詢：

nutch的一些讀取命令

最近在研究nutch，整理了一下關於讀取資源資料的命令。檢視具體的url，以163為例 bin nutch readdb url crawldb url 2.檢視linkdb資料庫的鏈結情況 bin nutch readlinkdb url linkdb url 3.檢視segments bin n...

mysql的命令不是太全，網上貼上的，求大牛補充

啟動 net start mysql 進入 mysql u root p mysql h localhost u root p databasename 列出資料庫 show databases 選擇資料庫 use databasename 列出 show tables 顯示列的屬性 show c...

Android底層控制系統設定的命令集合

1 關機 poweroff f 2 設定系統時間 date s yyyymmdd.hhmmss 3 lcd背光開關 echo enable disable sys class lcd debug 4 pm命令察看已安裝的包 pm list package 此時則顯示所有已經安裝的包名。pm lis...

nutch全網爬行的底層命令

nutch的一些讀取命令

mysql的命令不是太全，網上貼上的，求大牛補充

Android底層控制系統設定的命令集合

相關推薦