Python爬蟲解析網頁的4種方式

正規表示式(regular expression)描述了一種字串匹配的模式（pattern），可以用來檢查乙個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等

正則的好處是編寫麻煩，理解不容易，但是匹配效率很高，不過時至今日有太多現成的html內容解析庫之後，我個人不太建議再手動用正則來對內容進行匹配了，費時費力

這個庫其實是我個人最喜歡的庫，作則是編寫requests庫的網紅程式設計師 kenneth reitz，他在requests的基礎上加上了對html內容的解析，就變成了requests-html這個庫了

安裝與使用： pip install requests-html

links = response.html.find(
'table.olt'
, first=
true
).find(
'a')

大名鼎鼎的 beautifulsoup庫，出來有些年頭了，在pyhton的html解析庫里屬於重量級的庫，其實我評價它的重量是指比較臃腫，大而全，而且依賴python，適用場景受到了侷限性

beautifulsoup解析內容同樣需要將請求和解析分開，從**清晰程度來講還將就，不過在做複雜的解析時**略顯繁瑣，總體來講可以用，看個人喜好吧。

安裝與使用： pip install beautifulsoup4

soup = beautifulsoup(response,
'html.parser'
)links = soup.findall(
"table",)
[0].findall(
'a')

lxml這個庫同時支援html和xml的解析，支援xpath解析方式，解析效率挺高，不過我們需要熟悉它的一些規則語法才能使用，例如下圖這些規則。

安裝與使用： pip install lxml

content = doc.xpath(
"//table[@class='olt']/tr/td/a"
)

python爬蟲之解析網頁的工具pyquery

主要是對這篇部落格所做的筆記有疑惑可以去看這篇文章 from pyquery import pyquery as py 初始化的三種方式 doc py html doc py url encoding utf 8 doc py filename index.html 利用css選擇器 conten...

python爬蟲網頁解析之lxml模組

windows系統下的安裝方法一 pip3 install lxml pip3 install lxml 4.2.1 cp36 cp36m win amd64.whl 檔案所在的路徑 linux下安裝方法一 pip3 install lxml 方法二 yum install y epel rel...

Python爬蟲（三）網頁解析

所需庫from bs4 import beautifulsoup專案示例html askurl 獲取頁面html文字 soup beautifulsoup html,html.parser 使用html解析來處理html變數變數名 item1 soup.find all article 匹配ar...

Python爬蟲解析網頁的4種方式

python爬蟲之解析網頁的工具pyquery

python爬蟲網頁解析之lxml模組

Python爬蟲（三） 網頁解析

相關推薦

Python爬蟲（三）網頁解析