scrapy爬蟲之xpath資料提取工具的使用

2021-10-07 23:02:14 字數 1564 閱讀 6660

xpath是xml路徑語言,它是一種來確定xml文件某部分位置的語言

html屬於xml

html的一般格式
>

>

表題資訊

head

>

>

我們網頁中看到的內容

body

>

html

>

表示式

描述/標籤

選中根,或根下的第一層標籤

//標籤

全域性匹配的標籤

.點前節點

…當前節點的父節點

*選擇所有標籤

text()

選中文字

@屬性選中指定屬性的節點

以下面**為例

scrapy shell

「/」 的使用
in [1]: response.xpath(

'/head'

)

out[1]: [

]in [2]: response.xpath(

'/html'

)

out[2]: [

'/html' data=

'>

]#可以觀察到,head是空的,html有內容,因為在跟節點下只有乙個html的標籤

「//」 的使用
in [8]: response.xpath(

'//div'

)

out[8]:

['//div' data=

'\n ...'

>,

'//div' data=

'\n >,

。。。省略。。。

選取書籍title的內容
in [5]: response.xpath(

"//article/h3/a/@title"

).extract(

)

out[5]:

['a light in the attic',

'tipping the velvet',

'soumission',

'sharp objects',

'sapiens: a brief history of humankind',

'the requiem red',

'the dirty little secrets of getting your dream job',

'the coming woman: a novel based on the life of the infamous feminist, victoria woodhull',

。。。省略。。。

xpath中函式的使用:w3cschool

爬蟲基礎之Xpath!

參見 參見div 1 獲取本頁面第乙個div div last 獲取本頁面最後乙個div div last 1 獲取倒數第二個div div 1 div last 獲取第乙個div和最後乙個div 從根節點擊取 從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置 div class title...

scrapy基礎 之 xpath網頁結構

1 什麼是xpath xpath 是一門在 xml 文件中查詢資訊的語言。xml是一種類似於html的傳輸協議 2,節點 xpath 中,有七種型別的節點 元素 屬性 文字 命名空間 處理指令 注釋以及文件 根 節點。例項 harry potter j k.rowling 2005 29.99 解析...

python 爬蟲之xpath用法

xpath全稱為xml path language一種小型的查詢語言,在爬蟲中,我們其實就是拿它來搜尋html文件,僅此而已。而網頁內容只有通過解析才能進行搜尋,所以使用xpath時,需要引入lxml庫,這個庫就是來解析網頁,協助xpath進行搜尋的。lxml庫的安裝,可以直接使用 pip3 ins...