pyquery無法正確解析xhtml型別網頁

2021-08-29 16:36:23 字數 613 閱讀 6665

最近發現使用pyquery解析網頁的時候,碰到了無法使用標籤獲取節點的情況,但使用class卻能正常獲取節點。

>>

> html=

''''''

>>

> doc=pq(html)

>>

> doc(

'.xx li')[

]>>

> doc(

'li')[

]

原因就是因為html裡xmlns=""這句引起的,宣告該網頁是xhtml型別,而pyquery預設解析器是xml型別,在pyquery文件裡提到了使用xml解析xhtml時會產生問題,可參考pyquery官方說明。

解決方法也很簡單,在初始化的時候加上parser="html"告訴pyquery使用html規範解析即可:

>>

> doc=pq(html,parser=

"html"

)>>

> doc(

'li')[,,

]>>

> doc(

'.xx li')[,,

]

pyquery解析器總結

python爬蟲之pyquery解析器 pyquery是乙個類似於jquery的解析網頁工具,使用lxml操作xml和html文件,它的語法和jquery很像。和xpath,beautiful soup比起來,pyquery更加靈活,提供增加節點的class資訊,移除某個節點,提取文字資訊等功能。1...

pyquery解析庫提取資料特例

豆瓣top250中提取評價人數 text 9.7 2029026人評價 doc pyquery text doc star span eq 1 text pyquery.eq index 用於同名標籤篩選,index從0開始,1表最後乙個 doc star span last child text ...

python解析庫詳解 PyQuery庫詳解

通過這篇文章為大家介紹崔慶才老師對python爬蟲pyquery庫的講解,包括基本原理及其理論知識點 目錄 一 什麼是pyquery庫?二 安裝 三 pyquery庫用法詳解 一 什麼是pyquery庫?強大而靈活的網頁解析庫。如果你覺得正則寫起來太麻煩,如果你覺得beautifulsoup語法太難...