1 1 nutch 基本概念

2021-08-31 12:35:59 字數 1066 閱讀 4552

爬行方式

nutch分為intract crawling(ic) and whole web crawling(wwc),其實這兩者區別不大,主要是後者使用了step by step的方式來實現,而前者是乙個crawl來處理整個procedure,同時有進行pagerank處理功能? 。當然分步進行提供了更多的靈活性(即引數可以控),也便 於觀察。

wwc實現方式

有內建的dmozparser針對專用urls來生成seed urls;也可以使用類ic方式,提供乙個url-seed plat file。

crawl procedure

這對於ic或wwc方式都是一樣的。

inject -> [generate -> fetch -> updatedb] -> invertlink -> [index -> dedup -> merge ]

其中粗體表明這是乙個可迴圈的過程,即如果是depth 大於1將進行loop;藍色表明是乙個post oper:對索引進行操作。

crawl命令爬行引數說明

-dir 儲存爬行結果目錄

-depth 從root開始 進行的爬行深度

-topn 達到每個depth前擷取top-scoring pages 數,即第n depth時的最大pages number

-threads 一次fetch過程中開啟的併發threads

測試結果

1.直接查詢

bin/nutch org.apache.nutch.searcher.nutchbean [dir-of-crawling]

其中dir是可選的,預設是crawl

bin/nutch org.apache.nutch.searcher.nutchbean 娛樂 output/163csdn/

2.使用web container來查詢

將war置於container中來查詢

references:

source codes

1 1 深度學習 基本概念

什麼是深度學習?深度學習是基於機器學習延伸出來的乙個新的領域,由以人大腦結構為啟發的神經網路演算法為起源加之模型結構深度的增加發展,並伴隨大資料和計算能力的提高而產生的一系列新的演算法。深度學習什麼時間段發展起來的?其概念由著名科學家geoffrey hinton等人在2006年和2007年在 sc...

基本概念 C 基本概念

由於工作中需要用到c 編寫的一些工具,有時候需要根據需求修改或者定製工具,所以現在不得不學習一下c 的基礎語法,此為筆記,不成章法!機器語言 組合語言 高階語言 面向過程的程式設計方法 物件導向的程式設計方法 泛型程式設計方法 1 演算法設計 2 源程式編輯 3 編譯 4 連線 5 執行除錯 輸入裝...

1 1作業系統的基本概念

一.作業系統的概念作業系統 是指控制和管理整個計算機系統的硬體與軟體資源,合理地組織,排程計算機的工作與資源的分配,進而為使用者和其他軟體提供方便藉口與環境的程式集合。作業系統是計算機系統中最基本的系統軟體。二.作業系統的特徵 共享 系統中的資源由多個併發執行的程序共同使用。互斥共享方式和同時訪問方...