Nutch的抓取工作問題

2021-06-19 15:57:22 字數 394 閱讀 6676

現在碰到的棘手問題是,要對nutch的fetch結果content進行媒介(天涯,網易等等)分類,比如:data/segements/content/part-00000/天涯  data/segements/content/part-00000/網易 。。。我的想法是在fetch的outpath進行構造,但貌似行不通。。。

還有另一種方案,就是按nutch的原格式,把資料都儲存在同乙個part-00000中,然後對採集回來的網頁內容進行加標籤標識,如:...(網頁原始碼)...。。。感覺這種方案比較好。

還有乙個問題是,nutch的輸出檔案格式,outputformat是二進位制序列檔案,後期要對採集回來的資料內容進行處理,這時原檔案是二進位制檔案,但是**解析標籤或內容的時候要怎麼處理這些二進位制檔案內容呢。。。

已解決。。。

nutch2 2 1抓取流程

整體流程 injectorjob generatorjob fetcherjob parserjob dbupdaterjob solrindexerjob injectorjob 從檔案中得到一批種子網頁,把它們放到抓取資料庫中去 generatorjob 從抓取資料庫中產生要抓取的頁面放到抓取佇...

Nutch工作流程

nutch工作流程 建立初始url集合分析 超連結是指機械人程式根據網頁鏈到其他網頁中的超連結,就像日常生活中所說的 一傳十,十傳百 一樣,從少數幾個網頁開始,連到資料庫上所有到其他網頁的鏈結。理論上,若網頁上有適當的超連結,機械人便可以遍歷絕大部分網頁。站長提交是指在實際執行中,爬蟲不可能抓取到所...

提高Nutch區域網抓取的速度

如果想要提高nutch區域網抓取的速度,大家第乙個想到肯定是 threads 但是那是錯誤的,如果只是單單增大執行緒數,那根本於事無補。通過下面這組測試,我們看看 threads 是否起作用。首先在本地apache2下建立兩個 寫乙個簡單的rakefile來幫助完成測試。設定depth 3 下面是r...