python爬蟲之xpath的基本使用

xpath 是一門在 xml 文件中查詢資訊的語言。xpath 用於在 xml 文件中通過元素和屬性進行導航。

所以在使用xpath之前需要了解html以及xml相關知識。

xml例項文件：我們將在下面的例子中使用這個 xml 文件。

<?xml version="1.0" encoding="iso-8859-1"?>
>
>
lang
="eng"
>
harry pottertitle
>
>
29.99price
>
book
>
>
lang
="eng"
>
learning xmltitle
>
>
39.95price
>
book
>
bookstore
>

xpath 使用路徑表示式在 xml 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

下面列出了最有用的路徑表示式：

表示式描述

nodename

選取此節點的所有子節點。

/從根節點擊取。

//從匹配選擇的當前節點擊擇文件中的節點，而不考慮它們的位置。

.選取當前節點。

…選取當前節點的父節點。

@選取屬性。

*匹配任何元素節點。

@*匹配任何屬性節點。

node()

匹配任何型別的節點。

|運算子

您可以選取若干個路徑。

在下面的**中，我們已列出了一些路徑表示式以及表示式的結果：

路徑表示式

結果bookstore

選取 bookstore 元素的所有子節點。

/bookstore

選取根元素 bookstore。注釋：假如路徑起始於正斜槓( / )，則此路徑始終代表到某元素的絕對路徑！

bookstore/book

選取屬於 bookstore 的子元素的所有 book 元素。

//book

選取所有 book 子元素，而不管它們在文件中的位置。

bookstore//book

選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麼位置。

//@lang

選取名為 lang 的所有屬性。

/bookstore/*

選取 bookstore 元素的所有子元素。

//*選取文件中的所有元素。

//title[@*]

選取所有帶有屬性的 title 元素。

//*[@class=「small_list_gallery」]

查詢當前頁面任何class值為這個的元素

中括號裡填謂語，查詢從1開始算：

text()這個可以獲取文字內容

python 爬蟲之xpath用法

xpath全稱為xml path language一種小型的查詢語言，在爬蟲中，我們其實就是拿它來搜尋html文件，僅此而已。而網頁內容只有通過解析才能進行搜尋，所以使用xpath時，需要引入lxml庫，這個庫就是來解析網頁，協助xpath進行搜尋的。lxml庫的安裝，可以直接使用 pip3 ins...

Python爬蟲之Xpath解析

例項化乙個etree物件，且需要將被解析的頁面的原始碼資料載入到該物件中呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲 pip install lxmlfrom lxml import etree1 將本地的html檔案中的原始碼載入到etree物件中 etr...

python爬蟲之xpath的基本使用

一簡介 xpath 是一門在 xml 文件中查詢資訊的語言。xpath 可用來在 xml 文件中對元素和屬性進行遍歷。xpath 是 w3c xslt 標準的主要元素，並且 xquery 和 xpointer 都構建於 xpath 表達之上。二安裝 pip3 install lxml三使用 1...

python爬蟲之xpath的基本使用

python 爬蟲之xpath用法

Python爬蟲之Xpath解析

python爬蟲之xpath的基本使用

相關推薦