爬蟲日記 基於bs4庫的HTML格式化和編碼

2022-03-11 09:43:33 字數 386 閱讀 9031

import requests

from bs4 import beautifulsoup

r=requests.get('')

demo=r.text

soup = beautifulsoup(demo,'html.parser')

print(soup.prettify())

我們之前在講美味湯的時候,就已經用過一次prettify方法了,那時候沒有做講解,因為我自己都沒發現,我不知道那是幹什麼的,只知道用了那個方法之後,爬取到的html本來是一團的,變成了長長的一條了,看上去清晰了很多。

至於編碼,prettify的編碼格式是utf8,只要出現了utf8,基本上就沒什麼好操心的了。即使是中文的內容,他也能列印出來。

基於bs4庫的HTML查詢方法

find all name,attrs,recursive,string,kwargs 返回乙個列表型別,內部儲存查詢的結果 對標籤名稱的檢索字串 import requests from bs4 import beautifulsoup r requests.get demo r.text sou...

爬蟲筆記(四) 基於bs4

爬取 詩詞名句 中,三國演義 全部內容。基於bs4,而不是正則。bs4相對於正則簡單一些,但是正則更加精準。準確的說是基於bs4中的beautifulsoup。同樣操作步驟 匯入包requests和bs4 headers ua偽裝 text是返回的資訊,也就是url中的原碼。可以print測試一下,...

基於bs4庫的HTML標籤遍歷方法

html可以看做一棵標籤樹 屬性說明 contents 將該標籤所有的兒子節點存入列表 children 子節點的迭代型別,和contents類似,用於遍歷兒子節點 descendants 子孫節點的迭代型別,包含所有的子孫跌點,用於迴圈遍歷 import requests from bs4 imp...