基於bs4的網頁遊歷

2022-07-17 23:24:23 字數 2054 閱讀 3287

1. html的基本格式

1. 下行遊歷。

1.1 contents

import requests                     #

r = requests.get("

")demo =r.text

from bs4 import

beautifulsoup

soup = beautifulsoup(demo,"

html.parser")

print(soup.body.contents) #

返回所有子節點的資訊。。

print(soup.body.contents[1]) #

以列表的形勢,因此可以進行列表的處理

print(soup.p.contents) # 只返回標籤的全部子第乙個資訊

1.2 氣死我了連續兩次都沒儲存上。。。。。

children and descendants

print(soup.body.children)       # 僅迴圈                      #

print(soup.body.descendants) # 僅迴圈 #

for i in

soup.body.children:

print

(i)for j in

soup.body.descendants:

print(j)

2.  上行遊歷

3. 平行遊歷(僅同一父親節點下)

bs4爬取網頁基礎

import requests from bs4 import beautifulsoup def getsoup url try r requests.get url,timeout 30 r.raise for status print r.text 很亂 soup beautifulsoup ...

爬蟲筆記(四) 基於bs4

爬取 詩詞名句 中,三國演義 全部內容。基於bs4,而不是正則。bs4相對於正則簡單一些,但是正則更加精準。準確的說是基於bs4中的beautifulsoup。同樣操作步驟 匯入包requests和bs4 headers ua偽裝 text是返回的資訊,也就是url中的原碼。可以print測試一下,...

基於bs4庫的HTML查詢方法

find all name,attrs,recursive,string,kwargs 返回乙個列表型別,內部儲存查詢的結果 對標籤名稱的檢索字串 import requests from bs4 import beautifulsoup r requests.get demo r.text sou...