xpath 爬蟲利器

用xpath的爬取網頁內容的初步了解：

xpath提取文字內容/text()，提取屬性內容/@***

# -*- coding: utf-8 -*-
# author：zjp
from lxml import etree
import requests
url = '' # **
response1 = requests.get(url) # 獲取網頁響應
selector1 = etree.html(response1.text) # etree解析網頁內容
texturl1 = selector1.xpath('//*[@id="houselist-mod-new"]/li/div[2]/div[1]/a/text()') # xpath
#print(texturl1) # 列印結果
# 離線爬取(檢視網頁源**,全選,copy,儲存到txt檔案utf-8編碼)
file_offline = open('f://data/scode_1115.txt', encoding='utf-8')
response_offline = file_offline.read()
selector2 = etree.html(response_offline)
texturl2 = selector2.xpath('//*[@id="houselist-mod-new"]/li/div[2]/div[1]/a/text()')
#print(texturl2)
print("離線爬取符合條件個數" + str(len(texturl2)))
#離線爬取符合條件個數60

爬蟲 xpath 匹配

從根標籤開始必須具有嚴格的父子關係從當前標籤後續節點含有即可選出 import lxml.html test data 111111 29.99 222222 39.95 33333 40 123 萬用字元，選擇所有 div book 1 title 選擇div下第乙個book標籤的title...

爬蟲入門 XPATH

識別符號作用節點名獲取節點的所有子節點獲取屬性從根節點獲取從匹配選擇的當前節點擊擇文件中的節點，而不考慮它們的位置獲取當前節點獲取當前節點的父節點可以通過組合使用縮小搜尋的範圍以下面的為例子元素標籤 strong div標籤中的 class cover wp 標籤中間的內容 8...

爬蟲 xpath語法

使用獲取整個頁面當中的元素，然後寫標籤名，然後再寫謂詞進行提取。比如 div class abc 和的區別代表只獲取直接子節點。獲取子孫節點。一般用得比較多。當然也要視情況而定。contains 有時候某個屬性中包含了多個值，那麼可以使用contains函式。示例如下 div contai...

xpath 爬蟲利器

爬蟲 xpath 匹配

爬蟲入門 XPATH

爬蟲 xpath語法

相關推薦