nutch2 2 1 mysql 建表語句

2021-07-04 06:40:14 字數 2950 閱讀 5454

create table `webpage` (

`id` varchar(250) not null,

`headers` blob,

`text` mediumtext,

`status` int(11) default null,

`markers` blob,

`parsestatus` blob,

`modifiedtime` bigint(20) default null,

`prevmodifiedtime` bigint(20) default null,

`score` float default null,

`typ` varchar(32) character set latin1 default null,

`batchid` varchar(32) character set latin1 default null,

`baseurl` varchar(767) default null,

`content` longblob,

`title` varchar(2048) default null,

`reprurl` varchar(767) default null,

`fetchinterval` int(11) default null,

`prevfetchtime` bigint(20) default null,

`inlinks` mediumblob,

`prevsignature` blob,

`outlinks` mediumblob,

`fetchtime` bigint(20) default null,

`retriessincefetch` int(11) default null,

`protocolstatus` blob,

`signature` blob,

`metadata` blob,

primary key (`id`)

) engine=innodb default charset=utf8 row_format=compressed;

主鍵,根據網頁url生成(格式:reversed domain name:protocol:port and path),因此,nutch2只能儲存當前網頁的狀態,而不能儲存歷史資訊。

合併了解析出來的所有文字字段(utf-8),用於普通的檢索,不過現在檢索一般使用solr,所以這個字段意義不大。

記錄抓取狀態,以下是各個狀態代表的含義

1     unfetched (links not yet fetched due to limits set in regex-urlfilter.txt, -topn crawl parameters, etc.)

2     fetched (page was successfully fetched)

3     gone (that page no longer exists)

4     redir_temp (temporary redirection — see reprurl below for more details)

5     redir_perm (permanent redirection — see reprurl below for more details)

34     retry

38     not modified

各個任務的標記(如:dist***injmrk_***updmrk_***ftcmrk_***gnmrk_***prsmrk_**)

parse狀態,在執行parsejob之前都是null。

parsestatuscodes.html

最後更改時間

網頁重要程度(pr),nutch2.2.1 使用的是opic演算法

批次id,由generate生成( (curtime/1000) + "-" +randomseed ), fetch時可選擇特定batchid的任務

用於將網頁原始碼中相對鏈結位址的轉為絕對位址,通常就是當前網頁的位址,有重定向的情況下,是最終定向到的位址

完整的網頁原始碼,未經任何處理(字符集也沒轉)。 

title標籤裡的內容 (已轉utf-8編碼)

重定向url,將在下一輪抓取,不會立即跟入

抓取間隔,預設是2592000(30天)

上次抓取時間

入鏈(url+linktext)

上次更新時網頁簽名

出鏈(url+linktext)

下次抓取時間,通常是間隔乙個月

重試次數

網頁簽名,用於判斷網頁是否改變,預設的實現是:org.apache.nutch.crawl.md5signature ,採用content的md5值,另乙個方案是org.apache.nutch.crawl.textprofilesignature,content抽取文字、分詞、排序等一系列操作後計算md5值

textprofilesignature

自定義元資料,可以在種子檔案裡面加,例如: http://***x/***.html \t type=news

protocolstatus

access_denied 17

blocked 23

exception 16

failed 2

gone 11

moved 12

notfetching 20

notfound 14

notmodified 21

proto_not_found 10

redir_exceeded 19

retry 15

robots_denied 18

success 1

temp_moved 13

wouldblock 22



mysql建立使用者表 mysql 建庫建表建使用者

1.建立資料庫 create database school 2.使用資料庫 use school 3.建立使用者 create user jame localhost identified by jame 4.授權使用者 注意這裡是用了 哦,可以自己講school也替換成 號 grant sele...

mysql建表思路 MySQL 建表思路

思想 硬碟如倉庫,表如倉庫中貨架 常用與不常用等分類 欄位如貨物 尺寸是固定或變動 訪問貨物涉及到貨架的佔位 效率。資料型別選用,建表思路,正規化 資料型別特點 資料型別的速度關係 最快 整形 date,time char,enum varchar text blob 最慢 char 與 varch...

mysql建表建索引6 mysql建表建索引

建表 create table sj projects id int 11 not null auto increment,title varchar 255 not null default comment 專案名稱 platform id int 11 not null default 0 co...