BeautifulSoup庫的使用方法

2022-06-01 05:03:06 字數 2485 閱讀 9534

from bs4 import

beautifulsoup

import

lxml

html = '''

the dormouse's story

once upon a time there were three little sisters; and their names were

elsie,

lacie and

tillie;

and they lived at the bottom of a well.

...'''

soup_html = beautifulsoup(html,'

html.parser')

#print(soup_html.prettify())

print(soup_html.title)#

獲取第乙個title標籤

print(soup_html.title.name)#

獲取第乙個title標籤名(感覺沒啥用)

print(soup_html.title.string)#

獲取第乙個title標籤的text

print(soup_html.title.parent)#

獲取第乙個title標籤的父標籤

print(soup_html.p)#

獲取第乙個p標籤

print(soup_html.p['

class

'])#

獲取第乙個p標籤屬性為'class'的值

print(soup_html.find_all('

a'))#

獲取所有的a標籤

print(soup_html.find(id='

link3

'))#

獲取id為『link3』的標籤

print(soup_html.a.get('

href

'))#

獲取第乙個a標籤'href'屬性的值

print(soup_html.get_text())#

獲取所有的文字內容

#基本使用

print(soup_html.b)#

通過這種soup.標籤名 我們就可以獲得這個標籤的內容

#獲取屬性

print(soup_html.a.attrs['

href'])

print(soup_html.p['

class'])

#獲取內容

#1.string

#2.get_text()

#巢狀選擇

print

(soup_html.p.b.get_text())

#子孫節點

print(soup_html.p.contents)#

p標籤下的所有字標籤

print(soup_html.p.children)#

print(soup_html.a.descendants)#

也是個迭代物件

#父節點與祖先節點

print

(soup_html.p.parent)

print

(soup_html)

print

(list(enumerate(soup_html.a.parent)))

#兄弟節點

print(soup_html.a.next_siblings)#

獲取後面的兄弟節點s

print(soup_html.a.previous_siblings)#

獲取前面的兄弟節點s

print(soup_html.a.next_sibling)#

獲取前面的兄弟節點

print(soup_html.a.previous_sibling)#

獲取前面的兄弟節點

#find_all(name,attrs,recursive,text,**kwargs)

#可以根據標籤名,屬性,內容查詢文件

#attrs

print(soup_html.find_all('

a',attrs=))

#text

print(soup_html.find_all(text="

the dormouse's story

"))#

返回的是文字

#css選擇器

#通過select()直接傳入css選擇器就可以完成選擇

#熟悉前端的人對css可能更加了解,其實用法也是一樣的

#.表示class #表示id

#標籤1,標籤2 找到所有的標籤1和標籤2

#標籤1 標籤2 找到標籤1內部的所有的標籤2

#[attr] 可以通過這種方法找到具有某個屬性的所有標籤

#[atrr=value] 例子[target=_blank]表示查詢所有target=_blank的標籤

print(soup_html.select(''))

beautifulsoup庫的使用方法

BeautifulSoup庫的使用

解析器 使用方法 優勢劣勢 python標準庫 beautifulsoup markup,html.parser python的內建標準庫 執行速度適中 文件容錯能力強 python 2.7.3 or 3.2.2 前的版本中文容錯能力差 lxml html 解析器 beautifulsoup mar...

BeautifulSoup庫的使用

五.總結 from bs4 import beautifulsoup 例項化bs4物件 soup beautifulsoup res.text,lxml bs4解析出來的結果會是乙個列表 tag soup.select css選擇器表示式 css選擇器 1.根據節點名及節點層次關係定位標籤 標籤選擇...

BeautifulSoup庫的使用

beautifulsoup 解析庫解析器 使用方法 python標準庫 beautifulsoup markup,html.parser lxml html解析器 beautifulsoup markup,lxml lxml xml解析器 beautifulsoup markup,xml html5...