cyberneko Dom4j玩轉HTML解析

2021-06-02 06:08:45 字數 812 閱讀 9414

**:

不是想盜版,實在是解決了我一大問題 ,必須記錄下來:      

cyberneko是乙個html解析器,它可以將html檔案解析成w3c的document物件。dom4j則支援通過xpath表示式檢索元素。用xpath檢索html真的是很爽的事!現在就開始:

第一步:cyberneko解析

domparser parser = new domparser();

parser.parse(path);

org.w3c.dom.document w3cdoc=parser.getdocument(); 

第二步:w3c的document轉換為dom4j的document:

domreader domreader=new domreader();

document=domreader.read(w3cdoc);

第三步:建立xpath物件

xpath xpath=new defaultxpath("//div[@class='abc']");

如果頁面宣告了xmlns命名空間,還需要加入命名空間資訊

map namespaces=new hashmap();

namespaces.put("xmlns","");

xpath.setnamespacecontext(new ******namespacecontext(namespaces));

這樣,表示式就應該寫成:

"//xmlns:div[@xmlns:class='abc']"

第四步:檢索

list nodes=xpath.selectnodes(doc);

專案4 玩日期

03.04.作 者 馬德鵬 04.05.完成日期 2014 年 3 月 9 日 05.06.版 本 號 v1.0 include using namespace std struct date date void calculate 求你輸入的時間d天後是哪年那月哪日 void sort1 輸出該日...

log4j日誌系統 Log4j

1.1 log4j的三大核心元件 1.2 loggers 記錄器 1.4 layouts 布局 org.apache.log4j.htmllayout 以html 形式布局 org.apache.log4j.patternlayout 可以靈活地指定布局模式 org.apache.log4j.lay...

slf4j結合log4j使用

在pom檔案中引入需要的jar包 org.slf4jgroupid slf4j apiartifactid 1.7.25version dependency org.slf4jgroupid jcl over slf4jartifactid 1.7.25version runtimescope de...