nutch2 2 1抓取流程

整體流程：

injectorjob => generatorjob => fetcherjob => parserjob => dbupdaterjob => solrindexerjob

injectorjob : 從檔案中得到一批種子網頁，把它們放到抓取資料庫中去

generatorjob: 從抓取資料庫中產生要抓取的頁面放到抓取佇列中去

fetcherjob: 對抓取佇列中的網頁進行抓取,在reducer中使用了生產/消費者模型

parserjob: 對抓取完成的網頁進行解析，產生一些新的鏈結與網頁內容的解析結果

dbupdaterjob: 把新產生的鏈結更新到抓取資料庫中去

solrindexerjob: 對解析後的內容進行索引建立

Nutch的抓取工作問題

現在碰到的棘手問題是，要對nutch的fetch結果content進行媒介天涯,網易等等分類，比如 data segements content part 00000 天涯 data segements content part 00000 網易我的想法是在fetch的outpath進行構造，...

nutch2 2 1 mysql 建表語句

create table webpage id varchar 250 not null,headers blob,text mediumtext,status int 11 default null,markers blob,parsestatus blob,modifiedtime bigint...

Nutch工作流程

nutch工作流程建立初始url集合分析超連結是指機械人程式根據網頁鏈到其他網頁中的超連結，就像日常生活中所說的一傳十，十傳百一樣，從少數幾個網頁開始，連到資料庫上所有到其他網頁的鏈結。理論上，若網頁上有適當的超連結，機械人便可以遍歷絕大部分網頁。站長提交是指在實際執行中，爬蟲不可能抓取到所...

nutch2 2 1抓取流程

Nutch的抓取工作問題

nutch2 2 1 mysql 建表語句

Nutch工作流程

相關推薦