BeautifulSoup解析資料

2021-09-27 01:25:14 字數 1073 閱讀 6797

4、基本操作

# coding: utf-8

__author__ = "wengwenyu"

from bs4 import beautifulsoup

fp = open('soup_text.html', encoding='utf-8')

soup = beautifulsoup(fp, 'lxml')

# print(soup)

# 根據標籤名進行查詢 : 定位到head標籤 注意: 只能找到第乙個符合條件的標籤

# print(soup.head)

# print(soup.div) #找到第一次出現的div

# 獲取某乙個標籤中的屬性 (字典形式)

# print(soup.a.attrs) 獲取某一標籤所有屬性和屬性值

# print(soup.a.attrs["target"]) # 獲取指定屬性值

# 獲取內容

# print(soup.p.string) 獲取直系內容 相當於xpath的/text()

# print(soup.p.text) 所有文字內容 xpath //text()

# print(soup.body.get_text()) 所有文字內容 相當於 xpath //text()

# find返回符合要求的第乙個標籤

# print(soup.find('div', class_="song"))

# print(soup.find('div', class_="tang"))

# 找到所有符合條件的標籤

# print(soup.find_all('a'))

# print(soup.find_all('a',limit=2)) # 限制前兩個

# print(soup.select('.song'))#可以使用選擇器

# selet函式的層級選擇器

# print(soup.select('div > img ')) #返回乙個列表

print(soup.select('div li')) # >表示直系層級 空格表示多個層級

資料解析 BeautifulSoup

bs4資料解析 例項化乙個beautifulsoup物件,並且將頁面遠嗎載入到該物件中。通過呼叫beautifulsoup物件中相關屬性方法進行標籤定位,資料提取。pip install bs4 pip install lxml 解析器 下面介紹乙個是從本地html文件中載入beautifulsou...

BeautifulSoup解析xml檔案的使用初步

借助拉手網的開放api藉口,獲取特定城市的當日 資料 列印響應 獲取每個店鋪的短標題和購買數量 print each.data.display.shorttitle.text,each.data.display.bought.text if name main fetch 沒有和etree.elem...

使用BeautifulSoup解析HTML

通過css屬性來獲取對應的標籤,如下面兩個標籤 可以通過class屬性抓取網頁上所有的紅色文字,具體 如下 from urllib.request import urlopen from bs4 import beautifulsoup html urlopen bsobj beautifulsou...