python lxml xpath使用簡單彙總

2021-08-21 19:18:01 字數 796 閱讀 5806

將html解析未標籤樹,和beautifulsoup一樣,會自動補全缺失的標籤。不同的是lxml是用c語言寫的,速度會更快。

# 1.html.fromstring  不會自動補全缺失標籤

import requests

from lxml import html

session_url = ''

s = requests.session()

r = s.get(login_url)

#轉換成結構樹

tree = html.fromstring(r.text)

el = tree.xpath('//input[@name="authenticity_token"]')[0]

# 2.etree.html

from lxml import etree

a = '''

head

段落1段落2html = etree.html(a)

html.xpath('//h') #

'''html = etree.html(a)

參考:

1.lxml.etree.html(text) 解析html文件

2.xpath全面總結

3.lxml.html 中幾種解析器的區別(蠻詳細的,雖然缺少總結,但是研究方式很棒)

4.(不合時宜得參考)檢視python的模組和函式幫助文件方法

文1指出,fromstring 不支援殘缺片段,不會自動補全

Android Studio使用疑難問題彙總

一 no changes detected 該問題是在使用android studio對專案進行svn上傳時出現的如圖 解決辦法是 將add silently 選中,然後重新建個專案就可以上傳了。ps 但是經過上面的修改還是不起作用,最後把tortoisesvn的版本從1.9換成1.7就好了。二 s...

Mybatis知識小匯(7) 使用註解開發

面向介面程式設計 1.關於介面的理解。介面從更深層次的理解,應是定義 規範,約束 與實現 名實分離的原則 的分離。介面的本身反映了系統設計人員對系統的抽象理解。介面應有兩類 第一類是對乙個個體的抽象,它可對應為乙個抽象體 abstract class 第二類是對乙個個體某一方面的抽象,即形成乙個抽象...

飛天技術匯 用混合雲,資料災備原來這麼簡單

這期飛天技術匯你將看到 2017年5月12日,全球性wannacry蠕蟲病毒事件導致銀行atm機 罷工 加油站的電腦 停業 連警察局都中招。台積電也曾發生大規模勒索病毒中毒事件,所幸該公司有備份的習慣,減少很多損失,但因為業務中斷造成了不小的傷害。艾默生調查報告顯示 資料中心故障每分鐘為企業帶來損失...