爬蟲基礎之Xpath!

2021-09-03 01:57:04 字數 558 閱讀 9964

參見

參見div[1]獲取本頁面第乙個div

div[last()]獲取本頁面最後乙個div

div[last()-1]獲取倒數第二個div

div[1] | div[last()]獲取第乙個div和最後乙個div

/從根節點擊取

//從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置

div[@class='title']獲取屬性class值為title的所有div

div[@id='title']獲取屬性id值為title的所有div

span[contains(@class,'vote-post-up')]當前span的class值有很多個,但我只想用其中的某乙個值來定位它,則使用contains函式

1 贊

參考資料:

爬蟲基礎 XPath語法總結

xpath xml path language 是一門在 xml 文件中查詢資訊的語言,可用來在 xml 文件中對元素和屬性進行遍歷。w3school官方文件 開源的xpath表示式編輯工具 xmlquire xml格式檔案可用 chrome外掛程式 xpath helper firefox外掛程式...

python 爬蟲之xpath用法

xpath全稱為xml path language一種小型的查詢語言,在爬蟲中,我們其實就是拿它來搜尋html文件,僅此而已。而網頁內容只有通過解析才能進行搜尋,所以使用xpath時,需要引入lxml庫,這個庫就是來解析網頁,協助xpath進行搜尋的。lxml庫的安裝,可以直接使用 pip3 ins...

爬蟲之正則和xpath

常用正規表示式回顧 單字元 除換行以外所有字元 aoe a w 匹配集合中任意乙個字元 d 數字 0 9 d 非數字 w 數字 字母 下劃線 中文 w 非 w s 所有的空白字元包,括空格 製表符 換頁符等等。等價於 f n r t v s 非空白 數量修飾 任意多次 0 至少1次 1 可有可無 0...