nutch常用命令

2021-06-18 04:24:45 字數 575 閱讀 9390

一步完成從捉取到健索引:

bin/nutch crawl urls -dir crawl_data depth 3 -topn5 

注入:bin/nutch inject crawl/crawldb urls

生成捉取列表:

bin/nutch generate crawl/crawldb    crawl/segments

讀取crawl下的crawldb目錄 生成捉取列表到 segments對應時間標籤目錄下的crawl_generate

開始捉取去網頁:

bin/nutch  fetch crawl/segments/時間戳目錄

並把結果存到 crawl/segments/時間戳目錄/crawl_fetch

解析parse :

bin/nutch  parse crawl/segments/時間戳目錄

完成上面的命令後,根據 crawl/segments/時間戳目錄的結果,更新crawl/crawldb中的資訊

bin/nutch updatedb crawl/crawldb  crawl/segments/時間戳目錄

完成一次捉取。

docker常用命令 Docker 常用命令筆錄

格式docker run 選項 映象 命令 引數.示例docker run it rm ubuntu 16.04 bash 示例解釋 it 這是兩個引數,乙個是 i,表示互動式操作,乙個是 t表示終端 rm 這個引數是說容器退出後隨之將其刪除 ubuntu 16.04 這是指用ubuntu 16.0...

常用命令 Git 常用命令大全

安裝教程可參照 廖雪峰老師的安裝教程。git config 在git中,使用git config 命令來配置 git 的配置檔案,git配置級別主要有3類 1 倉庫級別 local 本地 git 倉庫級別配置檔案,作用於當前倉庫。優先順序最高 2 使用者級別 global,全域性配置檔案,作用於所有...

Linux常用命令 vi vim常用命令介紹

vi vim是linux系統自帶的乙個功能豐富的文字編輯器 命令字元 介紹dd 雙擊d 剪下當前行 num dd 雙擊d 剪下當前行 例如10dd可以刪除10行 yy拷貝當前行 p將內容貼上至游標所示位置 命令 說明 set number 頁面顯 hi 檢視當前系統提供的高亮模式 match col...