python網頁內容提取神器lxml

2022-07-02 17:24:08 字數 883 閱讀 9692

一、xpath是什麼

xpath 是一門在 xml 文件中查詢資訊的語言。xpath 用於在 xml 文件中通過元素和屬性進行導航。

xpath 使用路徑表示式在 xml 文件中進行導航

xpath 包含乙個標準函式庫

xpath 是 xslt 中的主要元素

xpath 是乙個 w3c 標準

二、xpath在python內容提取中的常用規則

1.選取節點

xpath 使用路徑表示式在 xml 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

下面列出了最有用的路徑表示式:

表示式描述

nodename

選取此節點的所有子節點。

/從根節點擊取。

//從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置。

.選取當前節點。

..選取當前節點的父節點。

@選取屬性。

示例:

# -*- coding: utf-8 -*-

from lxml import etree

import requests

resp = requests.get(''

'yuanzw/xiaoxueyuwen/rj3s/')

resp.encoding = 'gbk'

html = resp.text

doc = etree.html(html)

# 選取網頁標題

print(doc.xpath('//title')[0].text) # 「//」從匹配選擇的當前節點擊擇文件中的節點

print(doc.xpath('/html/head/title')[0].text) # 「/」從根節點開始提取

python提取內容 使用Python提取小說內容

具體實現功能如下 輸入 目錄頁的url之後,指令碼會自動分析目錄頁,提取 的章節名和章節鏈結位址。然後再從章節鏈結位址逐個提取章節內容。現階段只是將 從第一章開始,每次提取一章內容,回車之後提取下一章內容。其他 的結果可能有不同,需要做一定修改。在逐浪測試過正常。coding utf8 usr bi...

網頁內容爬取 如何提取正文內容

建立乙個新 一開始沒有內容,通常需要抓取其他人的網頁內容,一般的操作步驟如下 為每個網頁寫特徵分析這個還是太耗費開發的時間,我的思路是這樣的。python的beautifulsoup包大家都知道吧,import beautifulsoup soup beautifulsoup.beautifulso...

python 網頁內容抓取

使用模組 import urllib2 import urllib 普通抓取例項 usr bin python coding utf 8 import urllib2 url 建立request物件 request urllib2.request url 傳送請求,獲取結果 try response...