Python爬蟲解析網頁的4種方式

2021-10-01 19:04:54 字數 1162 閱讀 1249

正規表示式(regular expression)描述了一種字串匹配的模式(pattern),可以用來檢查乙個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等

正則的好處是編寫麻煩,理解不容易,但是匹配效率很高,不過時至今日有太多現成的html內容解析庫之後,我個人不太建議再手動用正則來對內容進行匹配了,費時費力

這個庫其實是我個人最喜歡的庫,作則是編寫requests庫的網紅程式設計師 kenneth reitz,他在requests的基礎上加上了對html內容的解析,就變成了requests-html這個庫了

安裝與使用: pip install requests-html

links = response.html.find(

'table.olt'

, first=

true

).find(

'a')

大名鼎鼎的 beautifulsoup庫,出來有些年頭了,在pyhton的html解析庫里屬於重量級的庫,其實我評價它的重量是指比較臃腫,大而全,而且依賴python,適用場景受到了侷限性

beautifulsoup解析內容同樣需要將請求和解析分開,從**清晰程度來講還將就,不過在做複雜的解析時**略顯繁瑣,總體來講可以用,看個人喜好吧。

安裝與使用: pip install beautifulsoup4

soup = beautifulsoup(response,

'html.parser'

)links = soup.findall(

"table",)

[0].findall(

'a')

lxml這個庫同時 支援html和xml的解析,支援xpath解析方式,解析效率挺高,不過我們需要熟悉它的一些規則語法才能使用,例如下圖這些規則。

安裝與使用: pip install lxml

content = doc.xpath(

"//table[@class='olt']/tr/td/a"

)

python爬蟲之解析網頁的工具pyquery

主要是對這篇部落格所做的筆記 有疑惑可以去看這篇文章 from pyquery import pyquery as py 初始化的三種方式 doc py html doc py url encoding utf 8 doc py filename index.html 利用css選擇器 conten...

python爬蟲網頁解析之lxml模組

windows系統下的安裝 方法一 pip3 install lxml pip3 install lxml 4.2.1 cp36 cp36m win amd64.whl 檔案所在的路徑 linux下安裝 方法一 pip3 install lxml 方法二 yum install y epel rel...

Python爬蟲(三) 網頁解析

所需庫from bs4 import beautifulsoup專案 示例html askurl 獲取頁面html文字 soup beautifulsoup html,html.parser 使用html解析來處理html變數 變數名 item1 soup.find all article 匹配ar...