Scrapy下xpath基本的使用方法

scrapy是基於python的開源爬蟲框架，使用起來也比較方便。具體的官網檔：

之前以為了解python就可以直接爬**了，原來還要了解html，xml的基本協議，在了解基礎以後，在了解下xpath的基礎上，再使用正規表示式(python下的re包提供支援)提取一定格式的資訊（比如說url），就比較容易處理網頁了。

xpath是scrapy下快速提取特定資訊（如title,head,href等）的乙個介面。

幾個簡單的例子：

/html/head/title: 選擇html文件元素下面的標籤。

/html/head/title/text(): 選擇前面提到的元素下面的文字內容

//td: 選擇所有元素

//div[@class="mine"]: 選擇所有包含 class="mine" 屬性的div 標籤元素

基本的路徑意義：

表示式描述

nodename

選取此節點的所有子節點。

/從根節點擊取。

//從匹配選擇的當前節點擊擇文件中的節點，而不考慮它們的位置。

.選取當前節點。

..選取當前節點的父節點。

@選取屬性。

具體的使用例項：

比如對 **提取特定的資訊

1）、先在第一層tutorial資料夾下，在cmd中輸入： scrapy shell

2）、現在比如我們需要抓取該網頁的tittle，由於前面的shell命令已經例項化了乙個selector的物件sel，就輸入 sel.xpath('//title') 獲取了網頁的標題。

3）、比如我們想要知道該網頁下的www.****.com形式的鏈結，可以使用xpath 結合正規表示式re提取資訊，輸入 sel.xpath('//@href').re("www.[0-9a-za-z]+\.com")

部分參考：

正規表示式參考：

scrapy應用xpath語法

如等等各種型別xpath語法可以用分號做分隔符來區分標籤但是最需要注意的是標籤的屬性值和標籤下的內容以及這個部分下面將對這兩個部分書寫xpath div a text get 首先鎖定要查詢的父標籤 text response.xpath div id search nature rg ul...

scrapy基礎之 xpath網頁結構

1 什麼是xpath xpath 是一門在 xml 文件中查詢資訊的語言。xml是一種類似於html的傳輸協議 2，節點 xpath 中，有七種型別的節點元素屬性文字命名空間處理指令注釋以及文件根節點。例項 harry potter j k.rowling 2005 29.99 解析...

Xpath基本用法

my listr tree findnodes as string ul id brand li a class bd 可以利用正規表示式來過濾。程式設計中經常會用到xml,net framework提供了專門對xml進行處理的dll,裡面提供了很多對xml處理的方法,在這裡簡單介紹一下xpath的...

Scrapy下xpath基本的使用方法

scrapy應用xpath語法

scrapy基礎 之 xpath網頁結構

Xpath基本用法

相關推薦

scrapy基礎之 xpath網頁結構