HTML Parser中包含的方法

2021-08-25 15:59:38 字數 1099 閱讀 4367

node中包含的方法有幾類:

對於樹型結構進行遍歷的函式,這些函式最容易理解:

node getparent ():取得父節點

nodelist getchildren ():取得子節點的列表

node getfirstchild ():取得第乙個子節點

node getlastchild ():取得最後乙個子節點

node getprevioussibling ():取得前乙個兄弟

取得node內容的函式:

string gettext ():取得文字

string toplaintextstring():取得純文字資訊。

string tohtml () :取得html資訊(原始html)

string tohtml (boolean verbatim):取得html資訊(原始html)

string tostring ():取得字串資訊(原始html)

page getpage ():取得這個node對應的page物件

int getstartposition ():取得這個node在html頁面中的起始位置

int getendposition ():取得這個node在html頁面中的結束位置

用於filter過濾的函式:

void collectinto (nodelist list, nodefilter filter):基於filter的條件對於這個節點進行過濾,符合條件的節點放到list中。

用於visitor遍歷的函式:

void accept (nodevisitor visitor):對這個node應用visitor

用於修改內容的函式,這類用得比較少:

void setpage (page page):設定這個node對應的page物件

void settext (string text):設定文字

void setchildren (nodelist children):設定子節點列表

其他函式:

void dosemanticaction ():執行這個node對應的操作(只有少數tag有對應的操作)

object clone ():介面clone的抽象函式。

HTML Parser中包含的方法

node getparent 取得父節點 nodelist getchildren 取得子節點的列表 node getfirstchild 取得第乙個子節點 node getlastchild 取得最後乙個子節點 node getprevioussibling 取得前乙個兄弟 node getnex...

HtmlParser中的各種Filter 1

所有的filter均實現了nodefilter介面,此介面只有乙個方法boolean accept node node 用於確定某個節點 是否屬於此filter過濾的範圍。htmlparser在org.htmlparser.filters包之內一共定義了16個不同的filter,也可以分為幾類。判斷...

HtmlParser類的說明

htmlparser類 這是乙個處理網頁原始檔的類。這裡涉及到了比較底層的東西。由於現在無法除錯,而且無礙大局,暫時就不深究它了。沒事的時候可以看看 the htmlparse class is used to parse an html page.it is just a utility clas...