爬蟲架構 bs4

2021-10-07 21:47:07 字數 1617 閱讀 8802

方便解析html、xml等格式的原始碼,快速查詢、修改等操作,節省數小時乃至更多的工作時間

官網文件

from bs4 import beautifulsoup

print

('path-'

,beautifulsoup)

path-
非真實網頁

html_doc =

'夏日炎炎,要你幹嘛

print

(soup.head.string)

print

(soup.p.text)

print

(soup.a.text)

我是哥,你是啥

夏日炎炎,要你幹嘛

print

baidu

可以通過查詢函式獲取單個及多個滿足條件的標籤

a_list  = soup.find_all(name=

"a")

print

(a_list)

a_list = soup.find_all(name=

['a'

,'p'])

print

(a_list)

a_list  = soup.find_all(name=

"a",attrs=

)#選擇返回的屬性

print

(a_list)

a_list = soup.find_all(name=

"a",limit=1)

#返回列表的長度:1

print

(a_list)

a_list  = soup.find(name=

"a",attrs=

)# 返回標籤

print

(a_list)

tag 標籤選擇 tagname{}

class型別選擇 .class{}

id選擇 #id{}

派生語法 tag\id\class

(a_list)[阿里]

爬蟲 bs4模組

安裝 pip3 install beautifulsoup4 解析html和xml,修改html和xmlimport requests from bs4 import beautifulsoup 文件容錯能力,不是乙個標準的html也能解析 soup beautifulsoup html doc,l...

爬蟲 資料解析 bs4

正規表示式實現資料解析 需求 爬取糗事百科中糗圖資料 import requests headers 方式1 url img data requests.get url url,headers headers content content返回的是byte型別的資料 方式2 方式2不可以使用ua偽裝...

爬蟲筆記(四) 基於bs4

爬取 詩詞名句 中,三國演義 全部內容。基於bs4,而不是正則。bs4相對於正則簡單一些,但是正則更加精準。準確的說是基於bs4中的beautifulsoup。同樣操作步驟 匯入包requests和bs4 headers ua偽裝 text是返回的資訊,也就是url中的原碼。可以print測試一下,...