爬蟲日記基於bs4庫的HTML格式化和編碼

import requests
from bs4 import beautifulsoup
r=requests.get('')
demo=r.text
soup = beautifulsoup(demo,'html.parser')
print(soup.prettify())

我們之前在講美味湯的時候，就已經用過一次prettify方法了，那時候沒有做講解，因為我自己都沒發現，我不知道那是幹什麼的，只知道用了那個方法之後，爬取到的html本來是一團的，變成了長長的一條了，看上去清晰了很多。

至於編碼，prettify的編碼格式是utf8，只要出現了utf8，基本上就沒什麼好操心的了。即使是中文的內容，他也能列印出來。

基於bs4庫的HTML查詢方法

find all name,attrs,recursive,string,kwargs 返回乙個列表型別，內部儲存查詢的結果對標籤名稱的檢索字串 import requests from bs4 import beautifulsoup r requests.get demo r.text sou...

爬蟲筆記（四）基於bs4

爬取詩詞名句中，三國演義全部內容。基於bs4，而不是正則。bs4相對於正則簡單一些，但是正則更加精準。準確的說是基於bs4中的beautifulsoup。同樣操作步驟匯入包requests和bs4 headers ua偽裝 text是返回的資訊，也就是url中的原碼。可以print測試一下，...

基於bs4庫的HTML標籤遍歷方法

html可以看做一棵標籤樹屬性說明 contents 將該標籤所有的兒子節點存入列表 children 子節點的迭代型別，和contents類似，用於遍歷兒子節點 descendants 子孫節點的迭代型別，包含所有的子孫跌點，用於迴圈遍歷 import requests from bs4 imp...

爬蟲日記 基於bs4庫的HTML格式化和編碼

基於bs4庫的HTML查詢方法

爬蟲筆記（四） 基於bs4

基於bs4庫的HTML標籤遍歷方法

相關推薦

爬蟲日記基於bs4庫的HTML格式化和編碼

爬蟲筆記（四）基於bs4