XPath學習筆記

2021-07-15 18:43:41 字數 629 閱讀 3329

xpath 是一門在 xml 文件中查詢資訊的語言。xpath 用於在 xml 文件中通過元素和屬性進行導航。xpath包含有乙個標準的函式庫,是xslt中的主要元素,同時也是乙個w3c標準。

若把xml用樹來表示,那麼根節點最上層的節點,根節點是唯一的。樹上其它的所有元素節點都是子節點或後代節點。

元素節點對應於文件中的每乙個元素,乙個元素節點的子節點可以是元素節點、注釋節點、處理指令節點和文字節點。

文字節點包含了一組字元資料,任何乙個文字節點都不會有緊鄰的兄弟文字節點。

每乙個元素節點有乙個相關聯的屬性節點集合,元素是每個屬性節點的父節點,但屬性節點卻不是其父元素的子節點。

每乙個元素節點都有乙個相關的命名空間節點集。在xml文件中,命名空間是通過保留屬性宣告的,因此,在xpath中,該類節點與屬性節點極為相似,它們與父元素之間的關係是單向的,並且不具有共享性。

處理指令節點對應於xml文件中的每一條處理指令。

注釋節點對應於文件中的注釋。

Xpath學習筆記

在 xpath 中,有七種型別的節點 元素 屬性 文字 命名空間 處理指令 注釋以及文件節點 或稱為根節點 lang eng harry pottertitle 29.99price book lang eng learning xmltitle 39.95price book bookstore ...

XPath學習筆記

使用lxml對爬取的網頁資料進行解析時,最長使用的方式是xpath,在scrapy爬蟲框架中也提供了相應的函式呼叫.xpath 和.css css 的方式實質上底層仍然被轉換成xpath方式進行處理。首先是xpath的基本使用方法,如圖 html doc 這是乙個鏈結 美女,約嗎?兄弟,你好嗎 se...

Xpath學習筆記

from lxml import etree import os os.path.abspath text first item html1 etree.html text1 result html1.xpath li contains class,li and name item a text 選...