HtmlParser進行解析原理

htmlparser主要靠node、abstractnode和tag來表達html

1. node是形成樹結構表示html的基礎，所有的資料表示都是介面node的實現，node定義了與頁面樹結構所表達的頁面page物件，定義了獲取父、子、兄弟節點的方法，定義了節點到對應html文字的方法，定義了該節點對應的起止位置，定義了過濾方法，定義了visitor訪問機制。

2. abstractnode是node的一種具體的類實現，起到構成樹形結構的作用，除了同具體node相關的accetp方法，tostring，tohtml，toplaintextstring方法以外，abstractnode實現了大多基本的方法，使得它的子類，不用理會具體的樹操作。

3. tag是具體分析的主要內容。tag分成composite的tag和不能包含其他tag的簡單tag兩類，其中前者的基類是compositetag，其子類包bodytag,div,framesettag,optiontag，等27個子類；而簡單tag有basehreftag、doctypetag,frametag，imagetag，inputtag，jsptag，metatag，processinginstructiontag這八類。

HtmlParser進行解析原理

使用HtmlParser解析HTML

使用HtmlParser解析HTML

使用HTMLParser解析html

HtmlParser進行解析原理

使用HtmlParser解析HTML

使用HtmlParser解析HTML

使用HTMLParser解析html

相關推薦