如何使用bs4爬蟲解析html

2021-09-29 22:03:07 字數 574 閱讀 7998

from bs4 import beautifulsoup

soup = beautifulsoup(html_doc,"html.parser")

print soup

print type(soup)

print soup.prettify()# 按照標準的縮排格式的結構輸出

# 通過標籤名稱來獲取tag物件,如果有多個相同的標籤名稱,返回第乙個

print soup.html

print soup.body

print soup.title

print type(soup.title)# class類,tag標籤

print soup.find_all('a')# 查詢所有a標籤

print soup.find_all('a')[2]# 查詢第二個a標籤

print soup.title.string# 輸出字串格式string

print soup.b.string # 輸出注釋

#find只返回第乙個

print soup.find("id='''")

爬蟲 資料解析 bs4

正規表示式實現資料解析 需求 爬取糗事百科中糗圖資料 import requests headers 方式1 url img data requests.get url url,headers headers content content返回的是byte型別的資料 方式2 方式2不可以使用ua偽裝...

爬蟲架構 bs4

方便解析html xml等格式的原始碼,快速查詢 修改等操作,節省數小時乃至更多的工作時間 官網文件 from bs4 import beautifulsoup print path beautifulsoup path 非真實網頁 html doc 夏日炎炎,要你幹嘛 print soup.hea...

爬蟲 bs4模組

安裝 pip3 install beautifulsoup4 解析html和xml,修改html和xmlimport requests from bs4 import beautifulsoup 文件容錯能力,不是乙個標準的html也能解析 soup beautifulsoup html doc,l...