bs4 beautifulsoup學習筆記

2021-09-16 12:28:26 字數 2699 閱讀 4002

「」"

todo

# 用requests庫獲取網頁html

r = requests.get("")

demo = r.text

對demo進行html的解析

soup =beautifulsoup(demo, "html.parser")

格式化html列印出來

print(print(soup.prettify()))

列印title標籤

print(soup.title)

列印內容的第乙個a標籤

print(soup.a)

列印a標籤的屬性

print(soup.a.attrs)

列印a標籤的text內容

print(soup.a.string)

列印a標籤的具體href連線屬性

print(soup.a.attrs['href'])

列印a標籤的名字,就是a

print(soup.a.name)

列印a標籤的父標籤名稱

print(soup.a.parent.name)

獲取a的父親的父親標籤

print(soup.a.parent.parent.name)

獲取head的子節點

print(soup.head.contents)

遍歷子節點

for child in soup.body.children:

print(child)

遍歷子孫節點soup.body.descendants:

"""

.patent 獲取節點的父標籤

.parents 獲取節點的所有父節點

"""for parent in soup.a.parents:

if parent is none:

print(parent)

else:

print(parent.name)

獲取a標籤的後乙個平行標籤,中間的字元也會算為平行標籤

print(soup.a.next_sibling)

獲取a標籤的後乙個平行標籤的後乙個平行標籤

print(soup.a.next_sibling.next_sibling)

獲取a標籤的前乙個平行標籤,中間的字元也會算為平行標籤

print(soup.a.previous_sibling)

"""

.next_siblings 遍歷後續所有平行節點

.previous_siblings 遍歷前續所有平行節點

"""for sibings in soup.a.next_siblings:

print(sibings)

獲取內容的所有a標籤

soup.find_all("a")

# 列印a中href屬性

for link soup.find_all("a"):

print(link.get('href'))

獲取所有ab標籤

soup.find_all(['a','b'])

獲取p標籤class包含***屬性的標籤

soup.find_add('p', '***')

獲取所有標籤

soup.find_all(true)

尋找標籤名包含b字元的所有標籤

soup.find_all(re.compile('b'))

按固定id值尋找標籤

soup.find_all(id='***')

按id值存在xx字元尋找標籤

soup.find_all(id=re.compile('***'))

recursive值,是否對子孫全部檢索,預設true

soup.find_all('a', recursive = false)

設定為false後,只對子節點進行檢索

string檢索是否存在text為***的標籤

soup.find_all(string = "***")

string檢索是否存在text包含***的標籤

soup.find_all(string = re.compile("***"))

爬蟲架構 bs4

方便解析html xml等格式的原始碼,快速查詢 修改等操作,節省數小時乃至更多的工作時間 官網文件 from bs4 import beautifulsoup print path beautifulsoup path 非真實網頁 html doc 夏日炎炎,要你幹嘛 print soup.hea...

爬蟲 bs4模組

安裝 pip3 install beautifulsoup4 解析html和xml,修改html和xmlimport requests from bs4 import beautifulsoup 文件容錯能力,不是乙個標準的html也能解析 soup beautifulsoup html doc,l...

bs4的基本用法

本檔案用來記錄bs4的用法 from bs4 import beautifulsoup 使用方法 將乙個html文件,轉化為指定物件,然後通過物件的方法或屬性去查詢指定的內容 轉化本地檔案 soup beautifulsoup open 本地檔案 lxml 轉化網路檔案 soup beautiful...