nutch的資料結構

2021-06-18 04:36:43 字數 681 閱讀 2671

nutch資料報含3個目錄結構,分別是:

1、crawldb:用於儲存nutch將要檢索的url資訊,以及檢索狀態(是否檢索、何時檢索)

2、linkdb:用於儲存每乙個url所包含的超連結資訊(包括錨點)

3、segments:一組url的集合,他們作為乙個檢索單元,可用於分布式檢索

segment目錄包含以下子目錄資訊:

(1)   crawl_generate:定義將要檢索的url集合(檔案型別為sequencefile)

(2)   crawl_fetch:儲存每乙個url的檢索狀態(檔案型別為mapfile)

(3)   content:儲存每乙個url所對應的二進位制位元組流(檔案型別為mapfile)

(4)   parse_text:儲存每乙個url所解析出的文字內容(檔案型別為mapfile)

(5)   parse_data:儲存每乙個url所解析出的元資料(檔案型別為mapfile)

(6)   crawl_parse:用於及時更新crawldb中的內容(如要檢索的url已不存在等情況)--檔案型別為sequencefile

注:結合nutch的資料結構和元件結構來看,crawldb相當於webdb,而segment相當於是fetchlists.

分布式crawl過程中,每個mapreduce job都會生成乙個segment,名稱以時間來命名

資料結構 資料結構的概述

一 概述 什麼是資料結構 資料 由有限的符號 比如,0 和 1 具有其自己的結構 操作 和相應的語義 組成的元素的集合。結構 元素之間的關係的集合。資料結構 資訊的一種組織方式,其目的是為了提高演算法的效率,它通常與一組演算法的集合相對應,通過這組演算法集合可以對資料結構中的資料進行某種操作。它用來...

資料結構 資料結構的三大結構

計算機程式設計 資料結構 演算法 資料結構研究變數的管理方式,演算法研究解決特定問題的方法。資料結構分三個層次 邏輯結構 抽象層 物理結構 結構層 運算結構 實現層 邏輯結構指人對資料之間關係的理解和看法,邏輯結構和計算機無關。邏輯結構 1 集合結構 這種結構表示資料可以合併成乙個整體。這是資料之間...

資料結構 資料結構緒論

資料結構是相互間存在一種或多種特定關係的資料元素的集合。程式設計 資料結構 演算法 資料結構是一門研究非數值計算的程式設計問題中的操作物件,以及他們之間的關係和操作等相關問題的學科。資料元素是組成資料的 有一定意義的基本單位,是計算機中通常作為整體處理,也被稱為記錄。乙個資料元素可以由若干個資料項組...