Scrapy下xpath基本的使用方法

2021-06-28 05:43:27 字數 927 閱讀 3190

scrapy是基於python的開源爬蟲框架,使用起來也比較方便。具體的官網檔:

之前以為了解python就可以直接爬**了,原來還要了解html,xml的基本協議,在了解基礎以後,在了解下xpath的基礎上,再使用正規表示式(python下的re包提供支援)提取一定格式的資訊(比如說url),就比較容易處理網頁了。

xpath是scrapy下快速提取特定資訊(如title,head,href等)的乙個介面。

幾個簡單的例子:

/html/head/title: 選擇html文件元素下面的標籤。

/html/head/title/text(): 選擇前面提到的元素下面的文字內容

//td: 選擇所有 元素

//div[@class="mine"]: 選擇所有包含 class="mine" 屬性的div 標籤元素

基本的路徑意義:

表示式描述

nodename

選取此節點的所有子節點。

/從根節點擊取。

//從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置。

.選取當前節點。

..選取當前節點的父節點。

@選取屬性。

具體的使用例項:

比如對 **提取特定的資訊

1)、先在第一層tutorial資料夾下,在cmd中輸入: scrapy shell   

2)、現在比如我們需要抓取該網頁的tittle,由於前面的shell命令已經例項化了乙個selector的物件sel, 就輸入 sel.xpath('//title') 獲取了網頁的標題。

3)、比如我們想要知道該網頁下的www.****.com形式的鏈結,可以使用xpath 結合正規表示式re提取資訊,輸入   sel.xpath('//@href').re("www.[0-9a-za-z]+\.com")

部分參考:

正規表示式參考:

scrapy應用xpath語法

如 等等各種型別xpath語法可以用分號做分隔符來區分標籤 但是最需要注意的是標籤的屬性值和標籤下的內容 以及這個部分 下面將對這兩個部分書寫xpath div a text get 首先鎖定要查詢的父標籤 text response.xpath div id search nature rg ul...

scrapy基礎 之 xpath網頁結構

1 什麼是xpath xpath 是一門在 xml 文件中查詢資訊的語言。xml是一種類似於html的傳輸協議 2,節點 xpath 中,有七種型別的節點 元素 屬性 文字 命名空間 處理指令 注釋以及文件 根 節點。例項 harry potter j k.rowling 2005 29.99 解析...

Xpath基本用法

my listr tree findnodes as string ul id brand li a class bd 可以利用正規表示式來過濾。程式設計中經常會用到xml,net framework提供了專門對xml進行處理的dll,裡面提供了很多對xml處理的方法,在這裡簡單介紹一下xpath的...