BeautifulSoup學習筆記

2021-07-10 15:36:25 字數 948 閱讀 6094

.prettify() 將html**格式化

.get_text() 獲得所有文字內容

.contens 返回所有子節點

.children 返回子節點生成器

.descendants 返回所有子孫節點的生成器

.strings 返回包含的多個字串的生成器

.stripped_strings 返回包含的多個字串(去除多餘空白)的生成器

.parent 獲取某個元素的父節點

.parents 遞迴得到元素的所有父輩節點

.next_sibling 和 .previous_sibling 屬性來查詢兄弟節點

.next_siblings 和 .previous_siblings 屬性可以對當前節點的兄弟節點迭代輸出

.next_element|.previous_element 屬性指向解析過程中下(上)乙個被解析的物件(字串或tag)

.next_elements 和 .previous_elements 的迭代器就可以向前或向後訪問文件的解析內容

find_all方法解析:

find_all( name , attrs , recursive , text , **kwargs )

允許使用的過濾器有:字串,方法,正規表示式,列表,true

name -- tag的名稱

attrs -- 關鍵字比如id等,對於不能使用的屬性,可以構造字典

#data_soup.find_all(attrs=)

class_ -- 對應class名稱

#css_soup.find_all("p", class_="body strikeout")

text  -- 對應字串內容

#soup.find_all("a", text="elsie")

limit  -- 設定搜尋的數量

recursive --設定是否只搜尋直接子節點

BeautifulSoup學習筆記

coding utf 8 import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 defget html url 偽裝成瀏覽器訪問 headers resp requests.get url,headers headers tex...

學習日記 使用BeautifulSoup爬取小說

半個月前入坑了python,近幾天看到csdn上有一些關於美麗的湯 beautifulsoup 的介紹和使用方法,於是自己也試著寫了乙個爬蟲。小白的學習日記,若有不當之處,歡迎大神們指點!使用python版本 python3.8 隨便在網上搜了個 試著爬下來。鏈結 檢視網頁的源 發現文章內容都是p標...

bs4 beautifulsoup學習筆記

todo 用requests庫獲取網頁html r requests.get demo r.text對demo進行html的解析 soup beautifulsoup demo,html.parser 格式化html列印出來 print print soup.prettify 列印title標籤 p...