爬蟲之xpath解析庫

2022-07-25 02:57:09 字數 584 閱讀 8702

xpath語法:

1.常用規則:

1.  nodename:  節點名定位

2.  //:  從當前節點擊取子孫節點

3.  /:  從當前節點擊取直接子節點

4.  nodename[@attribute="

..."]  根據屬性定位標籤  '

//div[@class="ui-main"]

'5.  @attributename:   獲取屬性

6.  text():   獲取文字

2.屬性匹配兩種情況: 多屬性匹配 &單屬性多值匹配

2.2多屬性匹配

示例: tree.xpath(

'//div[@class="item" and @name="test"]/text()')

2.1單屬性多值匹配

示例: tree.xpath(

'//div[contains(@class, "dc")]/text()')

3.按序選擇:

3.1索引定位: 從1開始(牢記, 牢記, 牢記)

3.2last()函式

3.3 position()函式

Python爬蟲之Xpath解析

例項化乙個etree物件,且需要將被解析的頁面的原始碼資料載入到該物件中 呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲 pip install lxmlfrom lxml import etree1 將本地的html檔案中的原始碼載入到etree物件中 etr...

python爬蟲資料解析之xpath

xpath是一門在xml文件中查詢資訊的語言。xpath可以用來在xml文件中對元素和屬性進行遍歷。在xpath中,有7中型別的節點,元素,屬性,文字,命名空間,處理指令,注釋及根節點。節點 首先看下面例子 1.0 encoding iso 8859 1 en harry potter j k.ro...

爬蟲 解析內容 xpath

from lxml import etree text harry potter 29.99 learning xml 39.95 print type text 將字串轉化為element物件 html etree.html text print html print type html 將ele...