解析庫的使用

2022-08-18 23:00:20 字數 840 閱讀 6308

xpath,全稱xml path language,即xml路徑語言,它是一門在xml文件中查詢資訊的語言。它最初是用來搜尋xml文件的,但是它同樣使用於html文件的搜尋。

所以在做爬蟲時,我們完全可以使用xpath來做相應的資訊抽取。

表  達  式    描  述

nodename選取此節點的所有節點

/            從當前節點擊取直接子節點

//         從當前節點擊取子孫節點

.             選取當前節點

..         選取當前節點的父節點

@          選取屬性

例如://title[@lang="eng"]

這就是乙個規則,它代表選擇所有名稱為title,同時書屬性lang的值為eng的節點。

使用之前,首先要確保安裝好lxml庫,window下命令列下輸入 pip3 install lxml 

text = '''

'''#

呼叫html進行初始化,構造xpath解析物件

html =etree.html(text)

result =etree.tostring(html)

print(result.decode('

utf8

'))

結果:

這裡我們呼叫tostring()方法輸出修正後的html**(注意最上面的html最後的乙個li節點是沒有閉合的),但是結果是byte型別的。這裡利用decode()方法將其轉成str型別。

解析庫使用

xpath通過標籤 提取資訊 更適用於爬蟲方法一 處理文字from lxml import etree text class carousel indicators mycarousel data slide to 0 class active mycarousel data slide to 1 ...

使用cJSON庫解析JSON

cjson是乙個基於c的json解析庫,這個庫非常簡單,只有cjson.c和cjson.h兩個檔案,支援json的解析和封裝,需要呼叫時,只需要 include cjson.h 就可以使用了,json官方 json json字串 這個json物件只有兩個鍵值對,鍵name對應字串andy,鍵age對...

time庫的使用和解析 time h

這裡用arduino的time庫做示例。首先,幾個容易搞混淆的概念。時間庫內幾乎所有的資料都在以下兩個資料型別之間相互轉換。1.時間型別time t 時間型別time t雖然只是乙個32位無符號整數,但該型別的資料均代表從2000年1月1日0點0分起開始計時的秒數。視情況而定。unix時間是從197...