整體流程:
injectorjob => generatorjob => fetcherjob => parserjob => dbupdaterjob => solrindexerjob
injectorjob : 從檔案中得到一批種子網頁,把它們放到抓取資料庫中去
generatorjob: 從抓取資料庫中產生要抓取的頁面放到抓取佇列中去
fetcherjob: 對抓取佇列中的網頁進行抓取,在reducer中使用了生產/消費者模型
parserjob: 對抓取完成的網頁進行解析,產生一些新的鏈結與網頁內容的解析結果
dbupdaterjob: 把新產生的鏈結更新到抓取資料庫中去
solrindexerjob: 對解析後的內容進行索引建立
Nutch的抓取工作問題
現在碰到的棘手問題是,要對nutch的fetch結果content進行媒介 天涯,網易等等 分類,比如 data segements content part 00000 天涯 data segements content part 00000 網易 我的想法是在fetch的outpath進行構造,...
nutch2 2 1 mysql 建表語句
create table webpage id varchar 250 not null,headers blob,text mediumtext,status int 11 default null,markers blob,parsestatus blob,modifiedtime bigint...
Nutch工作流程
nutch工作流程 建立初始url集合分析 超連結是指機械人程式根據網頁鏈到其他網頁中的超連結,就像日常生活中所說的 一傳十,十傳百 一樣,從少數幾個網頁開始,連到資料庫上所有到其他網頁的鏈結。理論上,若網頁上有適當的超連結,機械人便可以遍歷絕大部分網頁。站長提交是指在實際執行中,爬蟲不可能抓取到所...