nutch2 2 1抓取流程

2021-07-04 08:11:01 字數 395 閱讀 1322



整體流程:

injectorjob => generatorjob => fetcherjob => parserjob => dbupdaterjob => solrindexerjob

injectorjob : 從檔案中得到一批種子網頁,把它們放到抓取資料庫中去

generatorjob: 從抓取資料庫中產生要抓取的頁面放到抓取佇列中去

fetcherjob:   對抓取佇列中的網頁進行抓取,在reducer中使用了生產/消費者模型

parserjob:    對抓取完成的網頁進行解析,產生一些新的鏈結與網頁內容的解析結果

dbupdaterjob: 把新產生的鏈結更新到抓取資料庫中去

solrindexerjob: 對解析後的內容進行索引建立

Nutch的抓取工作問題

現在碰到的棘手問題是,要對nutch的fetch結果content進行媒介 天涯,網易等等 分類,比如 data segements content part 00000 天涯 data segements content part 00000 網易 我的想法是在fetch的outpath進行構造,...

nutch2 2 1 mysql 建表語句

create table webpage id varchar 250 not null,headers blob,text mediumtext,status int 11 default null,markers blob,parsestatus blob,modifiedtime bigint...

Nutch工作流程

nutch工作流程 建立初始url集合分析 超連結是指機械人程式根據網頁鏈到其他網頁中的超連結,就像日常生活中所說的 一傳十,十傳百 一樣,從少數幾個網頁開始,連到資料庫上所有到其他網頁的鏈結。理論上,若網頁上有適當的超連結,機械人便可以遍歷絕大部分網頁。站長提交是指在實際執行中,爬蟲不可能抓取到所...