爬蟲入門 XPATH

2021-10-03 05:20:56 字數 1463 閱讀 7882

識別符號

作用節點名

獲取節點的所有子節點

@獲取屬性

/從根節點獲取

//從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置

.獲取當前節點

…獲取當前節點的父節點

可以通過組合使用縮小搜尋的範圍

以下面的為例子:

元素==標籤

strong

div標籤中的

class=「cover-wp「

標籤中間的內容

8.5

//div[@data-index =「0」]

//div[@class = 「slide-page」]

//div [@class = 「slide-page」]/a[@href = 「熱門&from=gaia」]

//div [@class =「slider」]//a[@href = 「熱門&from=gaia」]

可以用多個屬性組合搜尋

所有的a標籤,有target屬性,並且屬性中帶有_bla的節點

//a[starts-with(@class, 「i」)]

所有的a標籤,有class屬性,並且屬性以i開頭

獲取文字內容

獲取相關**

xpath 爬蟲利器

用xpath的爬取網頁內容的初步了解 xpath提取文字內容 text 提取屬性內容 coding utf 8 author zjp from lxml import etree import requests url response1 requests.get url 獲取網頁響應 select...

爬蟲 xpath 匹配

從根標籤開始 必須具有嚴格的父子關係 從當前標籤 後續節點含有即可選出 import lxml.html test data 111111 29.99 222222 39.95 33333 40 123 萬用字元,選擇所有 div book 1 title 選擇div下第乙個book標籤的title...

爬蟲 xpath語法

使用 獲取整個頁面當中的元素,然後寫標籤名,然後再寫謂詞進行提取。比如 div class abc 和 的區別 代表只獲取直接子節點。獲取子孫節點。一般 用得比較多。當然也要視情況而定。contains 有時候某個屬性中包含了多個值,那麼可以使用contains函式。示例 如下 div contai...