使用beautifulsoup4解析內容

2022-09-15 09:39:13 字數 1206 閱讀 2518

一、安裝

在cmd中直接執行pip install beautifulsoup4進行安裝

二、原理

beautifulsoup4(html)

獲取節點:find()、find_all()/select()

獲取屬性:attrs

獲取文字:text

原理:beautifulsoup4將複雜的html文件轉換成乙個樹形結構,每個節點都是python物件。

三、使用

from bs4 import

beautifulsoup

import

requests

url = "

"res =requests.get(url)

res.encoding = "

utf-8

"html =res.text

soup =beautifulsoup(html)

soup.find("h2

").text

a = soup.find("a"

)print

(a)print

(a.attrs)

print(a.attrs["

href

"])

上面是通過beautifulsoup(html)方法來解析得到的res.text資訊,找到列印href

url_new = "

" + a.attrs["

href"]

res =requests.get(url_new)

res.encoding = "

utf-8

"soup =beautifulsoup(res.text)

soup.find("p

")

用上面找到的href來進行url拼接,並且用過css樣式的標籤來找到需要的資訊

四、效果展示

五、總結

beautifulsoup4是將requests請求的text資訊進行解析,然後可以通過不同的css標籤來取到想要的資訊或者內容。

BeautifulSoup 安裝使用

linux環境 1.安裝 方法一 解壓 tar xzvf beautifulsoup4 4.2.0.tar.gz 安裝 進入解壓後的目錄 python setup.py build sudo python setup.py install 方法二 快速安裝 ubuntu sudo apt get i...

BeautifulSoup使用相關知識

1基礎使用,獲取某一 內容的h1標籤 2複雜html解析 print name.get text get text 清除標籤,只保留內容 4通過網際網路採集 外鏈 from urllib.request import urlopen from bs4 import beautifulsoup imp...

使用BeautifulSoup解析HTML

通過css屬性來獲取對應的標籤,如下面兩個標籤 可以通過class屬性抓取網頁上所有的紅色文字,具體 如下 from urllib.request import urlopen from bs4 import beautifulsoup html urlopen bsobj beautifulsou...