使用xpath提取頁面所有a標籤的href屬性值

2022-06-19 02:18:11 字數 647 閱讀 1676

# -*- coding: utf-8 -*-

#1.選取節點

#獲取所有的div元素 //div

#/代表獲取根節點的直接子元素

#獲取所有帶有id屬性的div //div[@id]

#2.謂詞(索引從1開始)

#獲取body下面的第乙個/最後乙個div元素/前兩個 //body/div[1] //body/div[last()] //body/div[position<3]

#獲取具有class='price'屬性的div標籤 //div[@class='price']

#3.萬用字元

# * |

#4.運算子 and or

import requests

from lxml import etree

url = ""

resp = requests.get(url)

resp.encoding="utf-8"

html = etree.html(resp.text)

#獲取所有a標籤的href屬性

linklist = html.xpath("//a/@href")

for item in linklist:

print(item)

xpath提取所有節點文字

解析 xpath提取所有節點文字 我左青龍,右白虎,老牛在當中,龍頭在胸口。使用xpath的string usr bin env python from scrapy.selector import selector text 我左青龍,右白虎,老牛在當中,龍頭在胸口。s selector text...

WordPress 撰寫文章頁面顯示所有標籤

wordpress 撰寫文章時,點選 從常用標籤中選擇 只顯示45個常用的標籤,很多情況下還需手工再次輸入標籤,這樣的限制感覺很不方便,通過下面的方法可以解除這個限制,顯示全部標籤。以wordpress 3.5.1版為例 其它版本可能有所不同 開啟wordpress程式wp admin includ...

scrapy使用用Xpath提取深層標籤

在使用scrapy框架做爬蟲時,有兩種方式對標籤內容進行提取 css和xpath。基本的標籤內容,屬性提取都很容易。但對於多層巢狀的標籤,如何提取到最裡層的內容呢?舉個栗子 網頁html內容是 id test helloworld b p 如何一下子提取到hello world 呢?用css的話需要...