使用Beautifulsoup解析網頁遇到的問題

2021-10-07 20:34:03 字數 649 閱讀 8447

今天遇到乙個網頁,按往常的老辦法

soup =

beautifulsoup

(content,

'lxml'

)

列印soup發現少了很多資料,剛開始還以為反爬,後來經過驗證不是。、

那麼就是解析問題,我換成了

soup =

beautifulsoup

(content,

'xml'

)

列印發現我想要的那塊成功出現了,但是對比整個網頁發現,其實還是有一些沒有顯示出來的,不管他,時間緊任務重,得過且過。

後來進入詳情頁,發現又顯示不全了。中間試了xpath等各種解析手段,還是顯示不出來。

最後還是繼續使用bs4。

soup =

beautifulsoup

(content,

'html.parser'

)

發現又成功解析出來了。

寫這篇部落格並沒有深究為什麼會這樣,能出來結果就趕緊接著往下做。緊張的工作中,大多數小夥伴應該都是這樣。

如果有遇到同樣只是解析顯示不全問題的小夥伴,試過了我的這幾種方法都還是不行,可以去搜bs4的文件,裡面有更多的方法,祝你好運

BeautifulSoup 安裝使用

linux環境 1.安裝 方法一 解壓 tar xzvf beautifulsoup4 4.2.0.tar.gz 安裝 進入解壓後的目錄 python setup.py build sudo python setup.py install 方法二 快速安裝 ubuntu sudo apt get i...

BeautifulSoup使用相關知識

1基礎使用,獲取某一 內容的h1標籤 2複雜html解析 print name.get text get text 清除標籤,只保留內容 4通過網際網路採集 外鏈 from urllib.request import urlopen from bs4 import beautifulsoup imp...

使用BeautifulSoup解析HTML

通過css屬性來獲取對應的標籤,如下面兩個標籤 可以通過class屬性抓取網頁上所有的紅色文字,具體 如下 from urllib.request import urlopen from bs4 import beautifulsoup html urlopen bsobj beautifulsou...