爬蟲知識點(xpath)

2021-08-09 06:08:39 字數 4485 閱讀 7741

xpath (xml path language) 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。

w3school官方文件:

開源的xpath表示式編輯工具:xmlquire(xml格式檔案可用)

chrome外掛程式 xpath helper

firefox外掛程式 xpath checker

xpath 使用路徑表示式來選取 xml 文件中的節點或者節點集。這些路徑表示式和我們在常規的電腦檔案系統中看到的表示式非常相似。

下面列出了最常用的路徑表示式:

表示式描述

nodename

選取此節點的所有子節點。

/從根節點擊取。

//從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置。

.選取當前節點。

..選取當前節點的父節點。

@選取屬性。

在下面的**中,我們已列出了一些路徑表示式以及表示式的結果:

路徑表示式

結果bookstore

選取 bookstore 元素的所有子節點。

/bookstore

選取根元素 bookstore。注釋:假如路徑起始於正斜槓( / ),則此路徑始終代表到某元素的絕對路徑!

bookstore/book

選取屬於 bookstore 的子元素的所有 book 元素。

//book

選取所有 book 子元素,而不管它們在文件中的位置。

bookstore//book

選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麼位置。

//@lang

選取名為 lang 的所有屬性。

謂語用來查詢某個特定的節點或者包含某個指定的值的節點,被嵌在方括號中。

在下面的**中,我們列出了帶有謂語的一些路徑表示式,以及表示式的結果:

路徑表示式

結果/bookstore/book[1]

選取屬於 bookstore 子元素的第乙個 book 元素。

/bookstore/book[last()]

選取屬於 bookstore 子元素的最後乙個 book 元素。

/bookstore/book[last()-1]

選取屬於 bookstore 子元素的倒數第二個 book 元素。

/bookstore/book[position()<3]

選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。

//title[@lang]

選取所有擁有名為 lang 的屬性的 title 元素。

//title[@lang=』eng』]

選取所有 title 元素,且這些元素擁有值為 eng 的 lang 屬性。

/bookstore/book[price>35.00]

選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大於 35.00。

/bookstore/book[price>35.00]/title

選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大於 35.00。

xpath 萬用字元可用來選取未知的 xml 元素。

萬用字元描述

*匹配任何元素節點。

@*匹配任何屬性節點。

node()

匹配任何型別的節點。

在下面的**中,我們列出了一些路徑表示式,以及這些表示式的結果:

路徑表示式

結果/bookstore/*

選取 bookstore 元素的所有子元素。

//*選取文件中的所有元素。

//title[@*]

選取所有帶有屬性的 title 元素。

通過在路徑表示式中使用「|」運算子,您可以選取若干個路徑。

例項在下面的**中,我們列出了一些路徑表示式,以及這些表示式的結果:

路徑表示式

結果//book/title | //book/price

選取 book 元素的所有 title 和 price 元素。

//title | //price

選取文件中的所有 title 和 price 元素。

/bookstore/book/title | //price

選取屬於 bookstore 元素的 book 元素的所有 title 元素,以及文件中所有的 price 元素。

xpath (xml path language) 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。

w3school官方文件:

開源的xpath表示式編輯工具:xmlquire(xml格式檔案可用)

chrome外掛程式 xpath helper

firefox外掛程式 xpath checker

xpath 使用路徑表示式來選取 xml 文件中的節點或者節點集。這些路徑表示式和我們在常規的電腦檔案系統中看到的表示式非常相似。

下面列出了最常用的路徑表示式:

表示式描述

nodename

選取此節點的所有子節點。

/從根節點擊取。

//從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置。

.選取當前節點。

..選取當前節點的父節點。

@選取屬性。

在下面的**中,我們已列出了一些路徑表示式以及表示式的結果:

路徑表示式

結果bookstore

選取 bookstore 元素的所有子節點。

/bookstore

選取根元素 bookstore。注釋:假如路徑起始於正斜槓( / ),則此路徑始終代表到某元素的絕對路徑!

bookstore/book

選取屬於 bookstore 的子元素的所有 book 元素。

//book

選取所有 book 子元素,而不管它們在文件中的位置。

bookstore//book

選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麼位置。

//@lang

選取名為 lang 的所有屬性。

謂語用來查詢某個特定的節點或者包含某個指定的值的節點,被嵌在方括號中。

在下面的**中,我們列出了帶有謂語的一些路徑表示式,以及表示式的結果:

路徑表示式

結果/bookstore/book[1]

選取屬於 bookstore 子元素的第乙個 book 元素。

/bookstore/book[last()]

選取屬於 bookstore 子元素的最後乙個 book 元素。

/bookstore/book[last()-1]

選取屬於 bookstore 子元素的倒數第二個 book 元素。

/bookstore/book[position()<3]

選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。

//title[@lang]

選取所有擁有名為 lang 的屬性的 title 元素。

//title[@lang=』eng』]

選取所有 title 元素,且這些元素擁有值為 eng 的 lang 屬性。

/bookstore/book[price>35.00]

選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大於 35.00。

/bookstore/book[price>35.00]/title

選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大於 35.00。

xpath 萬用字元可用來選取未知的 xml 元素。

萬用字元描述

*匹配任何元素節點。

@*匹配任何屬性節點。

node()

匹配任何型別的節點。

在下面的**中,我們列出了一些路徑表示式,以及這些表示式的結果:

路徑表示式

結果/bookstore/*

選取 bookstore 元素的所有子元素。

//*選取文件中的所有元素。

//title[@*]

選取所有帶有屬性的 title 元素。

通過在路徑表示式中使用「|」運算子,您可以選取若干個路徑。

例項在下面的**中,我們列出了一些路徑表示式,以及這些表示式的結果:

路徑表示式

結果//book/title | //book/price

選取 book 元素的所有 title 和 price 元素。

//title | //price

選取文件中的所有 title 和 price 元素。

/bookstore/book/title | //price

選取屬於 bookstore 元素的 book 元素的所有 title 元素,以及文件中所有的 price 元素。

xpath基礎知識點

from lxml import etree text 新華書店 harry potter 29.99 learning xml 39.95 python 大全 99.95 將字串物件轉換為xml物件才可以使用xpath html xml etree.html text print html xml...

爬蟲須知知識點

uri 統一資源標誌符,url 統一資源定位符。關係 url是uri的子集。3.超文字可以理解為網頁的源 http 超文字傳輸協議,用於從網路傳輸超文字資料到本地瀏覽器的傳送協議。優點 高效而準確。https http的安全版,安全基礎是ssl,傳輸內容經過ssl加密。請求方法 get和post g...

Python爬蟲知識點一

一。入門知識 1.1.http簡介 uri和url的區別 uri強調的是資源,而url強調的是資源的位置。1.2常用請求型別 options 返回伺服器針對特定資源所支援的http請求方法。head 向伺服器索要與get請求相一致的響應,只不過響應體將不會被返回。get 向特定資源發出請求 post...