xpath 爬蟲利器

2021-08-31 23:50:25 字數 853 閱讀 1609

用xpath的爬取網頁內容的初步了解:

xpath提取文字內容/text(),提取屬性內容/@***

# -*- coding: utf-8 -*-

# author:zjp

from lxml import etree

import requests

url = '' # **

response1 = requests.get(url) # 獲取網頁響應

selector1 = etree.html(response1.text) # etree解析網頁內容

texturl1 = selector1.xpath('//*[@id="houselist-mod-new"]/li/div[2]/div[1]/a/text()') # xpath

#print(texturl1) # 列印結果

# 離線爬取(檢視網頁源**,全選,copy,儲存到txt檔案utf-8編碼)

file_offline = open('f://data/scode_1115.txt', encoding='utf-8')

response_offline = file_offline.read()

selector2 = etree.html(response_offline)

texturl2 = selector2.xpath('//*[@id="houselist-mod-new"]/li/div[2]/div[1]/a/text()')

#print(texturl2)

print("離線爬取符合條件個數" + str(len(texturl2)))

#離線爬取符合條件個數60

爬蟲 xpath 匹配

從根標籤開始 必須具有嚴格的父子關係 從當前標籤 後續節點含有即可選出 import lxml.html test data 111111 29.99 222222 39.95 33333 40 123 萬用字元,選擇所有 div book 1 title 選擇div下第乙個book標籤的title...

爬蟲入門 XPATH

識別符號 作用節點名 獲取節點的所有子節點 獲取屬性 從根節點獲取 從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置 獲取當前節點 獲取當前節點的父節點 可以通過組合使用縮小搜尋的範圍 以下面的為例子 元素 標籤 strong div標籤中的 class cover wp 標籤中間的內容 8...

爬蟲 xpath語法

使用 獲取整個頁面當中的元素,然後寫標籤名,然後再寫謂詞進行提取。比如 div class abc 和 的區別 代表只獲取直接子節點。獲取子孫節點。一般 用得比較多。當然也要視情況而定。contains 有時候某個屬性中包含了多個值,那麼可以使用contains函式。示例 如下 div contai...