xpath教程一 簡單的標籤搜尋

2021-09-07 18:02:57 字數 1481 閱讀 7097

網頁**都是成對的標籤,基礎結構如下

網頁名title> head>    div-text div> body> html> 

網頁結構基本都是如此,一般有價值的資料都是在body中

html_str = """

網頁名title> head> div-text span-textspan> a-texta> p-textp> div>

headingth> another headingth> tr> row 1, cell 1td> row 1, cell 2td> tr> table-text-2 table> body> html> """

from lxml import etree

html = etree.html(html_str)

這段**是從lxml中匯入etree,然後將前面杜撰的乙個html_str字串通過etree.html函式,解析成支援xpath的資料型別,並儲存到html變數中

兩段**鏈結起來,成功執行,那就說明lxml庫正常

任務二:解析出div標籤下spanap標籤裡面的值

任務三:試著解析div標籤的text()

任務四:解析thtd的文字值

html_str = """

網頁名title> head> div-text span-textspan> a-texta> p-textp> div>

Xpath簡單匹配標籤內容

在使用正規表示式來尋找感興趣內容的時候,需要知道感興趣內容附近內容的特徵。而xpath則不同。xpath與html的結構 html為樹狀結構,可以逐層展開,逐層定位。xpath就是根據這一特性來工作的。其中兩根斜線 定位根節點,一根斜線 表示往下層尋找,其中乙個html標籤表示一層,提取文字內容則是...

xpath的簡單應用,常見li標籤分組

coding utf 8 from lxml import etree text html etree.html text print html 檢視element物件中包含的字串 print etree.tostring html decode 獲取class為item 1 li下的a的herf ...

XPath的簡單用法

xpath 使用路徑表示式來選取 xml 文件中的節點或節點集。下面使用乙個簡單的xml檔案內容 定位到節點名稱為parent1的元素 xpath為 tree parent1 其中前面加 表示根元素,此時的xpath就是絕對路徑了,在這裡的例子中,因為tree為根元素,所以這裡的xpath也可以表示...