爬蟲中Xpth的簡單使用

2021-09-13 19:16:08 字數 999 閱讀 4927

關於這個xpath方法,它在scrapy框架中起到重要的作用,有一些簡單的知識和大家分享一下。有錯誤的話希望大家可以多多指出我的錯誤。
一、節點關係

1.父節點

2.子節點

3.同胞節點

4.先輩節點

5.後代節點

二、xpath語法:

article:選取article元素的所有子節點

/article:選取根元素article

article/a:選取所有article的子元素的a元素

//div:所有div元素

article/div:選取article下所有div標籤

//@class:選取所有名為class的屬性

三、xpath語法-謂語:

/article/div[1]:選取article子元素的第乙個div元素

/article/div[last()]:選取article子元素的最後乙個div元素

//div[@lang]:選取所有擁有lang屬性的div元素

//div[@lang =『eng』]:選取所有lang屬性的div元素

/article/div[last()-1]:選取倒數第二個

四、xpath語法

/div/:選取屬於div元素的所有子節點

//:選取所有元素

//div[@*]:選取所有帶有屬性的div元素

/div/a|//div/p:選取所有div元素的a和p元素

//span|//ul:選取文件中的span和ul元素

article/div/p|//span:選取所有article中div元素的元素,以及文件中的所有span

注:兩個常用的函式

1.extract():獲得乙個列表

2.strip():去掉空格,換行符

Python Scrapy爬蟲簡單使用

scrapy startproject spidername scrapy shell 名 除錯命令可直接進行css和xpath的除錯 成功執行命令之後可使用 response.xpath xpath表示式 獲取所需的內容。說明 xpath 是一門在 xml 文件中查詢資訊的語言 表示式描述 例項n...

簡單爬蟲之requests的使用

requests庫的用法安裝 基本請求 response requests.get 引數 response requests.post 引數 response requests.put 引數 response requests.delete 引數 response requests.head 引數 ...

使用python實現簡單爬蟲

近日學習了python語言,簡單實現了乙個爬蟲,爬取了慕課網課程簡介上的,並儲存到本地。以下是實驗 coding utf 8 spyder editor import re import os import urllib.request 在python3.6環境中實現 f soure urllib....