python 網路爬蟲之beautifulsoup

2021-10-05 21:09:49 字數 1667 閱讀 9971

beautifulsoup: 用來提取請求返回資訊

安裝:pip install beautifulsoup4

平行遍歷,發生在同乙個父節點下的各節點間

標籤的平行遍歷的結果不一定是標籤

import requests

from bs4 import beautifulsoup

import re

url =

''try:

r = requests.get(url)

demo = r.text

soup = beautifulsoup(demo,

"html.parser"

)#html.parser是直譯器

# print(soup.title) #列印標題

# print(soup.a) #列印第乙個標籤是的標籤的內容

# print(soup.find_all('a')) #獲取所有的a標籤

# print(soup.find_all(true)) #獲取所有的標籤

print

(soup.find_all(re.

compile

('b'))

)#獲取所有b開頭的標籤

# print(soup.a.name) #標籤名字

# print(soup.a.string) #標籤string???

# print(soup.a.attrs) #標籤屬性

# print(soup.a.attrs['class']) #獲取指定的屬性的值

# print(soup.a.parent.name) #列印a的父親的名字

# print(soup.a.parents) #列印a的先輩

# print(soup.a.parent.parent.name) #列印a的父親的父親的名字

# print(soup.prettify())#列印整個頁面

# print(soup.head) #列印head

# print(soup.head.contents) #列印head

# print(soup.body.contents)

# print(soup.body.children)

# for child in soup.body.children:

# print(child)

# print(soup.a.next_sibling)

# print(soup.a.next_sibling.next_sibling)

# print(soup.a.previous_sibling)

except

:print

('get fail'

)

Python 網路爬蟲之BeautifulSoup

在上一節記錄了如何使用urllib進行網路爬蟲,並將資料儲存。但是我當時是使用的正規表示式進行的資料過濾,有些不全面。接下來我將記錄一種更加方便的解析資料的操作 beautifulsoup 安裝beautifulsoup4 導包import urllib.request from bs4 impor...

Python之網路爬蟲(1)

將 中所有的出版社資訊都爬取出來。如下 可以看到,網頁中有許多的出版社。下面我們用 將所有出版社的名字爬取出來,並儲存在檔案中。import urllib.request import re url data urllib.request.urlopen url read data data.dec...

Python之網路爬蟲(4)

使用 伺服器進行資訊爬取,可以很好的解決ip限制的問題。import urllib.request def use proxy url,proxy addr proxy urllib.request.proxyhandler 由於urllib.request.urlopen不支援很多高階網頁,因此使...