利用htmlparser把html轉成xlm

2021-05-23 07:17:13 字數 475 閱讀 6037

最近在做一些網頁資訊採集的工作,說通俗點就是爬蟲工具,要監控頁面中某一部分內容是否發生變化。起初考慮用正規表示式去匹配網頁原始碼,經過諮詢有經驗人士,推薦使用xpath去獲取頁面內容能獲得更好的效率。但是對於html這種寬鬆語法要求的語言來說,不可能100%地完全符合xml標準,那麼就沒法使用xpath,說得更直接點就是:不能把html原始碼直接載入到xmldocument中。為了使用xpath,只能對html內容進行轉換或者規範,於是就寫了這麼乙個方法。

該方法比較地偷懶,借助了開源工具htmlparser獲取html原始碼中的所有節點,然後遍歷各個節點,轉換為對應的xmlnode。對於html中有未閉合的節點,在轉換後實際**會有一些差別,但是不影響xpath的使用(這也跟如何寫xpath的內容有關)。

實現方式如下,需引用htmlparser的dll

摘自網路:http://www.cnblogs.com/shenba/archive/2009/04/12/1434050.html

利用htmlparser抓取網頁內容

import org.htmlparser.node import org.htmlparser.nodefilter import org.htmlparser.parser import org.htmlparser.filters.tagnamefilter import org.htmlpa...

如何利用pandas將Excel轉為html格式

大家談及用pandas匯出資料,應該就會想到to.系列的函式。這其中呢,比較常用的就是pd.to csv 和pd.to exupoqrtvtocel 但其實還可以將其導成html網頁格式,這裡用到的函式就是pd.to html 今天我們要實現excel轉為html格式,首先需要用讀取excel中的 ...

利用python把EXCEL檔案匯入Oracle

一 資料準備 1 excel資料準備 包含字串 整數 小數 科學計數法 空值 2 oracle建表 二 注意 必要時需要先刪除資料庫中資料再導數入庫。usr bin env python coding utf 8 import cx oracle import csv import xlrd imp...