HtmlParser中的各種Filter 1

2022-09-20 03:45:12 字數 1533 閱讀 9381

所有的filter均實現了nodefilter介面,此介面只有乙個方法boolean accept(node node),用於確定某個節點 是否屬於此filter過濾的範圍。 htmlparser在org.htmlparser.filters包之內一共定義了16個不同的filter,也可以分為幾類。

判斷類filter: tagnamefilter

hasattributefilter

haschildfilter

hasparentfilter

hassiblingfilter

isequalfilter

邏輯運算filter

andfilter

notfilter

orfilter

xorfilter

其他filter:

nodeclassfilter

stringfilter

linkstringfilter

linkregexfilter

regexfilter

cssselectornodefilter

除此之外,可以自定義一些filter,用於完成特殊需求的過濾

tag類

主要和nodeclassfilter配合使用

remark:注釋

basehreftag:

body tag:"body";//getbody();內部呼叫額是toplaintextstring();

bullet:"li"

bulletlist:"ul","ol"

compositetag:

definitionlist:"dl"

definitionlistbullet:"dd","dt"

div:"div"

doctypetag:「!doctype"

formtag:

framesettag:

frametag:

headingtag:"h1","h2","h3","h4","h5","h6"

headtag:"head"

html:"html"

imagetag:

inputtag:"input"

jsptag:"%","%=","%@"

labeltag:"label"

linktag:

metatag:

objecttag:

optiontag:

paragraphtag:"p"

processinginstructiontag:"?"

scripttag:

selecttag:"select"

span:"span"

styletag:"style"

tablecolumn:"td"

tableheader:"th"

tablerow:"tr"

tabletag:"table"

tagnode:

textareatag:"textarea"

titletag:"title"

textnode:

HTML Parser中包含的方法

node getparent 取得父節點 nodelist getchildren 取得子節點的列表 node getfirstchild 取得第乙個子節點 node getlastchild 取得最後乙個子節點 node getprevioussibling 取得前乙個兄弟 node getnex...

HTML Parser中包含的方法

node中包含的方法有幾類 對於樹型結構進行遍歷的函式,這些函式最容易理解 node getparent 取得父節點 nodelist getchildren 取得子節點的列表 node getfirstchild 取得第乙個子節點 node getlastchild 取得最後乙個子節點 node ...

HtmlParser類的說明

htmlparser類 這是乙個處理網頁原始檔的類。這裡涉及到了比較底層的東西。由於現在無法除錯,而且無礙大局,暫時就不深究它了。沒事的時候可以看看 the htmlparse class is used to parse an html page.it is just a utility clas...