HtmlParser類的說明

2021-04-20 11:36:28 字數 945 閱讀 4821

htmlparser類:

這是乙個處理網頁原始檔的類。這裡涉及到了比較底層的東西。由於現在無法除錯,而且無礙大局,暫時就不深究它了。

沒事的時候可以看看:

/*** the htmlparse class is used to parse an html page.  it is

* just a utility class, and does not store any values.

*/package com.heaton.bot;

import com.heaton.bot.*;

public

class htmlparser extends parse 

public string buildtag()

else

}i++;

}buffer+=">";

return buffer;

}protected

void parsetag()

tag+="--";

idx+=3;

parsedelim=0;

return;

}// find the tag name

while ( !eof() ) 

eatwhitespace();

// get the attributes

while ( source.charat(idx)!='>' ) 

// get the value(if any)

parseattributevalue();

addattribute();

}idx++;

}public

char get()

else

return(source.charat(idx++));

} else

return(source.charat(idx++));}}

htmlparser的關鍵類

andfilter 相當於乙個and操作符,接受所有同時滿足兩個filter的節點.cssselectornodefilter 接受所有支援css2選擇器的節點.hasattributefilter 接受所有否含有某個屬性 還可以設定該屬性的值 的節點.haschildfilter 接受所有含有子節...

htmlParser 工具類使用筆記

鏈結過濾器 parser linkparser new parser 屬性過濾器 hasattributefilter tagfilter new hasattributefilter class info hasattributefilter downloadlinkfilter new hasa...

HTML Parser中包含的方法

node getparent 取得父節點 nodelist getchildren 取得子節點的列表 node getfirstchild 取得第乙個子節點 node getlastchild 取得最後乙個子節點 node getprevioussibling 取得前乙個兄弟 node getnex...